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Hate Speech online: Hartknäckiges 
Phänomen und interdisziplinärer 
Forschungsgegenstand 


Sylvia Jaki und Stefan Steiger 


1 Hate Speech und ihre Bekämpfung 


Während in der Frühphase des Internets die erwarteten positiven Wirkungen 
digitaler Kommunikation auf demokratische Diskurse betont wurden, hat sich die 
Perspektive in den vergangenen Jahren deutlich getrübt. Die gezielte Verbreitung 
von Desinformationen zur Beeinflussung von demokratischen Wahlen oder 
während der Coronapandemie stehen ebenso exemplarisch hierfür wie die Ver- 
breitung von Hate Speech. Diese Phänomene bedrohen den demokratischen Dis- 
kurs und erschweren bspw. die Konsensfindung bei entscheidenden politischen 
Fragen. 

Hate Speech im digitalen Raum stellt eine wachsende gesellschaftliche 
Herausforderung dar, das Problem ist aber nicht genuin neu. Schon in der Früh- 
phase der Internetentwicklung wurden potenziell unerwünschte Folgen der Inter- 
netkommunikation für demokratische Diskurse debattiert (Buchstein, 1996). Die 
globale Verbreitung digitalisierter Kommunikation und insbesondere die massen- 
hafte Nutzung von sozialen Medien haben die neue Qualität der Herausforderung 
aber eindrücklich verdeutlicht. In jüngster Vergangenheit gab es beispielsweise 
gehäuft Fälle von digitaler Hate Speech im Kontext der Coronapandemie (Lee & 
Li, 2021; Uyheng & Carley, 2020). Die Auseinandersetzung um die Maßnahmen 
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zur Eindämmung der Coronapandemie stellen dabei aber nur einen der aktuellen 
Kristallisationspunkte der Hate Speech im Netz dar. Demokratische Gemein- 
wesen sind durch die immer intensiver gefiihrten Auseinandersetzungen grund- 
legend herausgefordert, ist der freie Diskurs und der Austausch verschiedener 
Positionen doch elementar fiir eine gelingende demokratische Entscheidungs- 
findung. Aufgrund der negativen Folgen haben demokratische Regierungen schon 
vor mehreren Jahren mit Initiativen gegen Hate Speech begonnen. 

Bereits 2016 vereinbarten die Betreiber sozialer Medien und weitere Inter- 
netunternehmen mit der EU einen Code of Conduct zur Bekämpfung von Hate 
Speech. Hierin erklärten die Unternehmen ihre Bereitschaft, an einer Ver- 
besserung des Onlinediskursklimas mitzuwirken (EU, 2016). Diese auf Frei- 
willigkeit basierenden Maßnahmen waren aus Sicht verschiedener Regierungen 
allerdings unzureichend. In Deutschland wird die Debatte um die Folgen digitaler 
Hate Speech spätestens seit dem Mord am ehemaligen Kasseler Regierungs- 
präsidenten Walter Lübcke 2019 intensiv geführt. Die negativen Folgen für den 
demokratischen Diskurs allgemein und politische Gewalt im Besonderen haben 
in Deutschland aber bereits mit dem Netzwerkdurchsetzungsgesetz (NetzDG) 
2017 dazu geführt, dass strafbare Inhalte zeitnah von den Betreibern sozialer 
Medien gelöscht werden müssen (Bundesgesetzblatt, 2017). Das Gesetz zur 
Bekämpfung des Rechtsextremismus und der Hasskriminalität verpflichtet die 
Betreiber seit 2021 sogar dazu, besonders schwerwiegende Fälle wie beispiels- 
weise Verstöße gegen $ 130 StGB (Volksverhetzung) direkt an das Bundes- 
kriminalamt zu melden. Diese gesetzgeberische Dynamik ist aber auch mit Kritik 
bedacht worden: So wurde im NetzDG mit Blick auf die potenziell weitgehenden 
Löschungen durch die Unternehmen ein unverhältnismäßiger Eingriff in den 
freien Diskurs durch nicht ausreichend legitimierte Wirtschaftssubjekte gesehen. 
Weiterhin wurde vor einer Fragmentierung des Kommunikationsraums gewarnt, 
da das NetzDG Betreiber nur dazu verpflichtet, strafbare Inhalte für die deutschen 
Nutzer*innen zu entfernen. Sofern die Fälle nicht gegen die plattformeigenen 
Community Standards verstoßen, bleiben die Nachrichten international weiter 
sichtbar (Eickelmann et al., 2017). 

Diese regulatorischen Bemühungen sind stets mit den verschiedenen Heraus- 
forderungen bei der Bekämpfung digitaler Hate Speech konfrontiert, und zu einer 
erfolgreichen Bewältigung müssen unterschiedliche Fachexpertisen verknüpft 
werden. 

Zu diesen Herausforderungen gehört, dass Hate Speech erstens nicht immer 
leicht zu erkennen ist. Auf sprachlicher Ebene können Verdachtsfälle von Hate 
Speech zwar mitunter lexikalisch anhand eines spezifischen Vokabulars identi- 
fiziert werden. Letztlich beurteilt werden kann Hate Speech dann aber erst mit 
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dem entsprechenden Kontext. Auch ist Hate Speech nicht immer direkt auf der 
sprachlichen Oberfläche erkennbar. Mitunter haben sich in Gruppen spezifische 
Bezeichnungen zur Verschleierung offener Hate Speech etabliert, die zunächst 
decodiert werden müssen. Auch zwischen Sprachen können signifikante Unter- 
schiede beispielsweise in der Wahrnehmung verschiedener Arten von Hate 
Speech bestehen. Aus linguistischer Sicht stellen sich daher Fragen wie: Welche 
sprachlichen Eigenheiten weist Hate Speech auf? Wie manifestiert sich Hate 
Speech an der sprachlichen „Oberfläche“? Welche subtileren Formen gibt es und 
wie lassen sie sich identifizieren? Welche Interaktionen bestehen zwischen ver- 
schiedenen Kommunikationsebenen? Inwiefern unterscheidet sich Hate Speech 
zwischen verschiedenen Sprachräumen? Wie wird Hate Speech (auch über unter- 
schiedliche Quellen) wahrgenommen? Dies sind einige Fragen, denen sich der 
linguistische Part des Bandes annähert. 

Zweitens ist eine systematische Bekämpfung von Hate Speech schwierig, 
weil es allein die Masse digitaler Kommunikation unmöglich macht, die Aufgabe 
nach Suche und Identifikation von Hate Speech allein Personen zu überlassen. Es 
bedarf verlässlicher automatisierter Verfahren zur Erkennung und ggf. Löschung 
von Hate Speech. Die im linguistischen Teil debattierten Fragen und Probleme 
stellen sich hier mit neuer Dringlichkeit, wenn Manifestationen von Hate Speech 
automatisiert klassifiziert werden müssen. Fragen, die in diesem Kontext unter- 
sucht werden, beziehen sich beispielsweise darauf, welche Verfahren sich für die 
Durchsuchung großer Datenmengen besonders eignen. Ferner geht es darum, 
nicht nur die Performanz der Systeme zu erfassen, sondern auch die Erklärbarkeit 
der Ergebnisse zu berücksichtigen. In diesem Zusammenhang ist auch die Frage 
nach der Evaluation derartiger Verfahren von zentraler Bedeutung, möchte man 
abschätzen, inwiefern diese Hilfsmittel verlässlich dazu beitragen können, dem 
Problem zu begegnen. 

Drittens wird eine systematische Bekämpfung von Hate Speech durch die 
transnationale Kommunikationsumgebung erschwert. Generell sind liberalen 
Demokratien bei Eingriffen in die freie Rede enge Grenzen gesetzt. Die Bereit- 
schaft, regulatorisch in Debatten einzugreifen, ist dabei aber zudem international 
verschieden stark ausgeprägt, so dass unterschiedliche Positionen zur Regulation 
von Hate Speech aufeinandertreffen. Aus politikwissenschaftlicher Perspektive 
stellen sich daher Fragen wie: Inwiefern sollten und dürfen demokratische 
Regierungen in die freie Rede eingreifen? Wie und durch welche Akteure kann 
Hate Speech sinnvoll reguliert werden? Wie können automatisierte Verfahren 
reguliert werden, wenn sie möglicherweise in Zukunft große Teile der Erkennung 
und Löschung von Inhalten übernehmen? 
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Diese kurzen Uberlegungen und Fragen zeigen bereits die Vielschichtig- 
keit, die mit dem Problem Hate Speech verbunden ist. Die vielen Facetten der 
Thematik legen eine interdisziplinäre Betrachtung des Phänomens nahe, möchte 
man die Thematik umfassend ausleuchten und analysieren. Dieser Band ver- 
sammelt daher Expertisen aus den Sprach-, Informations- und Politikwissen- 
schaften. 

Der Band ist eines der Resultate aus einem interdisziplinären Forschungs- 
projekt an der Universität Hildesheim, in dessen Kontext sich Forschende intensiv 
mit dem Phänomen digitaler Hate Speech auseinandersetzen. Unter dem Titel 
Das Phänomen Hate Speech und seine Erkennung durch KI (HASeK]) befassten 
sich Informations-, Sprach- und Politikwissenschaftler*innen mit verschiedenen 
Aspekten digitaler Hate Speech. Gefördert wurde das Projekt im Rahmen der 
Ausschreibung „Zukunftsdiskurse“ des Niedersächsischen Ministerium für 
Wissenschaft und Kultur. Der vorliegende Sammelband richtet sich an Wissen- 
schaftler*innen, Studierende und Interessierte, die sich mit den verschiedenen 
Facetten von Hate Speech näher befassen möchten. Er vereint überblicksartige 
Darstellungen der Forschungsstände verschiedener Disziplinen mit detaillierten 
Analysen zur Erkennung, Rezeption und Regulation von Hate Speech. 


2 Einschätzungen zum Umgang mit Hate Speech 


Das Projekt HASeKI beinhaltet neben diesem Sammelband die Durchführung 
mehrerer Tagungen, und zwar sowohl von Tagungen fachlicher Natur als auch 
von Veranstaltungen für die Zivilgesellschaft. Die ersten beiden Konferenzen, 
also die erste Fachtagung und die erste Bürgertagung, wurden auch über die 
Diskussions- bzw. Fragerunden hinaus interaktiv gestaltet, indem eine Variante 
einer Delphi-Befragung durchgeführt wurde. 

Delphi-Befragungen können als „ein Instrument zur verbesserten Erfassung 
von Gruppenmeinungen“ gesehen werden (Häder, 2014, S. 19). Die Antworten 
beruhen dabei auf „intuitiv vorliegenden Informationen der Befragten“ (Cuhls, 
2019, S.5) zu Fragen in Bereichen, in denen lediglich unsicheres Wissen vor- 
liegt (Niederberger & Renn, 2018, S. 8). In diesem Fall handelt es sich um 
die Meinungen bzw. Einschätzungen der Tagungsteilnehmer*innen zu Hate 
Speech und ihrer Regulierung. Ein wichtiges Prinzip von Delphi ist, dass diese 
Meinungen in mehreren Wiederholungen eingeholt werden, die Antworten 
anonym erfolgen, sich die Fragen an Expert*innen richten und das Gesamtergeb- 
nis für jede Frage wieder an die Expertinnen zurückgespiegelt wird (vgl. Häder, 
2014, S. 25). Typischerweise findet eine solche Befragung mittels standardisierter 
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Fragebögen statt, aber Varianten mit mündlichen Fragen, beispielsweise im 
Rahmen von Workshops, kommen ebenso zum Einsatz (vgl. Häder, 2014, S. 25). 
Das Delphi-Verfahren wird insbesondere bei „Fragestellungen zu Forschung, 
Technologie aber auch Organisation, Personal oder Bildung verwendet“ (Cuhls, 
2019, S. 7). 

Die Tagung fand als Videokonferenz auf der Plattform BigBlueButton 
statt und stellte somit weder eine genuin schriftliche noch eine Face-to-face- 
Kommunikationssituation dar. Stattdessen konnten die Befragten mittels einer in 
BigBlueButton integrierten Polling-Funktion anonym abstimmen. Ahnlich wie 
bei schriftlichen Fragebögen hat dies im Delphi-Verfahren den positiven Effekt, 
dass keine Antworten aus sozialer Erwünschtheit zu erwarten sind — anders 
als bei den Formen, die sonst außerhalb schriftlicher Fragebögen in münd- 
lichen Kontexten bei Delphi angewendet werden (vgl. Cuhls, 2019, S. 7 £.). 
Bei den Expert*innen handelte es sich generell um Menschen mit unterschied- 
lichen Hintergründen und Graden an Expertise, wie für Delphi-Untersuchungen 
typisch (vgl. Cuhls, 2019, S. 20). Bei der Fachtagung im Februar 2021 waren 
überwiegend Wissenschaftler*innen zugegen, die sich mit der Beschreibung, 
Regulierung und automatischen Erkennung von Hate Speech befassen, also einen 
ausgewiesenen Status als fachliche Expert*innen aufweisen. Jedoch war die 
Tagung auch für Interessierte über diesen Kreis hinaus offen und das Angebot 
wurde beispielsweise von einigen Mitgliedern der Universität Hildesheim 
angenommen, die sich zwar für das Thema interessierten und daher in der Regel 
bereits Vorkenntnisse besaßen, aber nicht Expert*innen i. e. S. waren. Ebenfalls 
anders als beim klassischen Delphi-Verfahren (vgl. Niederberger & Renn, 2018, 
S. 11) wurden in unserem Fall bei der zweiten Befragung im Juni 2021 auch 
nicht mehr dieselben Konferenzteilnehmer*innen wie in der ersten Befragungs- 
runde befragt. Dies liegt daran, dass die Wiederholung auf einer zweiten Tagung 
durchgeführt wurde, bei der nur teilweise dieselben Teilnehmer*innen anwesend 
waren. Bei der Veranstaltung handelte es sich um eine Bürgertagung, zu der auch 
interessierte Menschen von außerhalb des universitären Bereichs eingeladen 
waren und bei der die Vortragenden bzw. Diskutant*innen auf dem Podium eben- 
falls einen heterogenen Hintergrund aufwiesen. 

Die Fragen beziehen sich allesamt auf den Umgang mit Hate Speech, und 
zwar durch verschiedene Akteure, wobei besonders die Rolle von Künstlicher 
Intelligenz im Fokus stand. Aufgrund des unterschiedlichen Publikums wurden 
beim zweiten Durchgang drei Fragen gestrichen, die ein Vorwissen im Bereich 
Natural Language Processing nötig machten. Im Folgenden werden nacheinander 
die Fragen sowie die Antworten in beiden Durchgängen vorgestellt. 
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Abb.1 Frage 1, 1. E mm 10 
Durchgang (n=61) D E2 
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Die Fragen wurden in drei Blécke aufgeteilt, die nach den jeweils thematischen 
Blöcken der Fachtagung geordnet waren und die sich auch in der Gliederung dieses 
Tagungsbandes wiederfinden (vgl. Abschn. 3). Den Teilnehmer*innen wurde frei- 
gestellt, ob sie auf die jeweiligen Fragen antworten. Der erste Block war der all- 
gemeinste und Frage 1 lautete folgendermaßen: „STIMMEN SIE DER FOLGENDEN 
AUSSAGE ZU? DIE PLATTFORMEN LEISTEN GENUG, UM HASSREDE IM NETZ ZU BEKÄMPFEN.“ 
Die Befragten konnten unter den fünf Antwortmöglichkeiten „A) Stimme gar nicht 
zu‘, „B) Stimme eher nicht zu“, „C) Stimme eher zu“, „D) Stimme vollauf zu“ und 
„E) Weiß nicht“ wählen. Antwort A) wurde im ersten Durchgang im Februar 2021 
6 (10 %!) Mal gewählt und im zweiten Durchgang im Juni 2021 5 (11%) Mal, 
Antwort B) jeweils 39 (64 %) und 26 Mal (57 %), Antwort C) jeweils 4 (7 %) und 
9 Mal (20 %), Antwort D) jeweils 2 (3 %) und 2 (4 %) Mal und Antwort E) jeweils 
10 (16 %) und 4 (9 %) Mal (vgl. Abb. 1 und 2). Wie die Antworten zeigen, waren 
sich beide Gruppen (Fachpublikum und Teilnehmer*innen der Bürgertagung) weit- 
gehend einig, dass die Plattformen bei der Bekämpfung von Hate Speech nicht 


'Das System in BigBlueButton gibt lediglich ganze Prozentzahlen an. Wir sind uns im 
Klaren darüber, dass bei der geringen Teilnehmer*innenzahl Prozentzahlen zum Teil irre- 
führend sein können. Da diese jedoch die Übersichtlichkeit erhöhen und eine bessere 
Vergleichbarkeit zwischen den beiden Durchgängen gewährleisten, sind sie hier mit 
angegeben. 
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aktiv genug sind, wenngleich es bei der Biirgertagung anteilig mehr Stimmen gab, 
die mit der Regulierung von Seiten der Plattformen eher zufrieden sind. 

Starker auf den Bereich KI ging Frage 2 ein: „Sofern verfügbar und technisch 
ausgereift, sollten KI und automatisierte Detektionsverfahren standardmäßig auf 
user-generated content etwa in sozialen Netzwerken angewandt werden?“ Hier 
standen die drei Auswahlmöglichkeiten ,,A) Ja“, „B) Nur unter engen gesetzlich 
definierten Bedingungen und bei Verdachtsfällen“ und „C) Gar nicht“ zur Ver- 
fügung. Antwort A) erreichte im ersten Durchgang 23 (33 %) und im zweiten 
Durchgang 10 (22 %) Stimmen, B) jeweils 39 (57 %) und 29 (64 %) Stimmen 
und C) jeweils 7 (10 %) und 6 (13 %) Stimmen (vgl. Abb. 3 und 4). Auch bei 
dieser Frage lagen die beiden Gruppen nicht weit auseinander, wobei das Fach- 
publikum der Verwendung von KI im Bereich der Erkennung von Hate Speech 
etwas positiver gegenüberstand. Unter den Teilnehmer*innen befanden sich 
jedoch auch einige Personen, die selbst solche Verfahren entwickeln, was diesen 
Unterschied vermutlich erklärt. 

Bei der dritten Frage war die Einschätzung der Expert*innen in Bezug auf die 
Entwicklung von Hate Speech gefragt: „WIE WIRD SICH DAS PROBLEM VON HATE 
SPEECH IN SOZIALEN NETZWERKEN IN ZEHN JAHREN DARSTELLEN?“ Die drei Antwort- 
möglichkeiten waren „A) Sehr viel schlimmer“, ,,B) Ähnlich wie heute“ und „C) 
Weitgehend gelöst“. Beantwortet wurde die Frage in der ersten Abstimmung 
12 Mal (18 %) und in der zweiten Abstimmung 9 Mal (21 %) mit A), jeweils 
54 (79 %) bzw. 26 Mal (60 %) mit B) sowie 2 (3 %) und jeweils 8 Mal (19 %) 
mit C) (vgl. Abb. 5 und 6). Interessant ist hier, dass das Fachpublikum bei dieser 
Frage pessimistischer war als das Publikum der zweiten Tagung, da weniger Teil- 
nehmer*innen der Meinung waren, das Problem sei in zehn Jahren weitgehend 
gelöst. Allerdings rechneten sie auch nicht stärker mit einer Verschlimmerung des 
Problems. 
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Der zweite Fragenblock beschäftigte sich ausschließlich mit der auto- 
matisierten Erkennung von Hassrede. Frage 4 zielte auf die Qualität von auto- 
matischer Hate-Speech-Erkennung ab: „WIE GUT IST DIE ERKENNUNG VON HATE 
SPEECH DURCH KI IHRER EINSCHÄTZUNG NACH AKTUELL?“ Die Befragten konnten sich 
für „A) Fast perfekte Erkennung“, „B) Mittelmäßige Erkennung“ oder „C) Sehr 
schlechte Erkennung“ entscheiden. In der ersten Abstimmung antworteten eine 
Person (2 %) und in der zweiten Abstimmung 3 Personen (7 %) mit A), jeweils 
36 (65 %) und 32 Personen (73 %) mit B) und jeweils 18 (33 %) bzw. 9 Personen 
(20 %) mit C) (vgl. Abb. 7 und 8). Ähnlich wie in der vorhergehenden Frage 
war das Fachpublikum etwas pessimistischer, wenn es um die Performanz auto- 
matischer Detektionsverfahren geht, wenngleich sich auch hier keine starken Dis- 
krepanzen abzeichneten. 
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Abb.9 Frage 5 (n=43) C ME 11 
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Frage 5 fokussierte die Akteur*innen der Hate-Speech-Erkennung und lautete 
„WER BIETET DIE BESTEN VERFAHREN ZUR ERKENNUNG VON HATE SPEECH DURCH KI 
— INDUSTRIE/GROSSE PLATTFORMEN ODER DIE WISSENSCHAFT?“ Die drei Antworten 
waren „A) Wissenschaft deutlich besser“, „B) Etwa gleich gut“ und „C) Platt- 
formen deutlich besser“. Diese Frage wurde lediglich auf der Fachtagung im 
Februar 2021 erhoben. 12 Personen (28 %) antworteten mit A), 20 (47 %) mit B) 
und 11 (26 %) mit C) (vgl. Abb. 9). Diese Antwort zeigt, dass die automatischen 
Verfahren der Industrie/Plattformen und der Wissenschaft als ähnlich leistungs- 
stark eingeschätzt wurden. 

Bei der sechsten Frage sollte eine Vorhersage zur Qualität von Hate-Speech- 
Erkennung in der Zukunft getroffen werden: „WIE WIRD DIE ERKENNUNG VON 
HATE SPEECH IN ZEHN JAHREN FUNKTIONIEREN?“ Ähnlich wie bei Frage 4 waren 
die drei Antwortmöglichkeiten „A) Fast perfekte Erkennung“, „B) Mittelmäßige 
Erkennung“ oder „C) Sehr schlechte Erkennung“. Diese Frage beantworteten 
im ersten Durchgang 12 (27 %) und im zweiten Durchgang 18 (43 %) Teil- 
nehmer*innen mit A), 33 (73 %) bzw. 22 (52 %) mit B) und 0 (0 %) bzw. 2 (5 %) 
mit C) (vgl. Abb. 10 und 11). Das Ergebnis der vierten Frage zur aktuellen Per- 
formanz von Detektionssystemen spiegelt sich auch hier wider, denn an eine fast 
perfekte Erkennung von Hate Speech in zehn Jahren glaubten ebenfalls die Teil- 
nehmer*innen der Bürgertagung stärker als die der Fachtagung. 


Abb.10 Frag 6, 1. clo 
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Abb. 12 Frage 7 (n=42) D m, 12 
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Wie Frage 5 wurde Frage 7 nur bei der ersten Erhebung gestellt. Sie lautete 
„WAS WIRD IHRER MEINUNG NACH AM MEISTEN ZU DEN FORTSCHRITTEN BEI DER 
ERKENNUNG VON HATE SPEECH DURCH KI BEITRAGEN?“ Die Befragten konnten 
zwischen den vier Antworten „A) Netzwerkanalysen“, „B) Sprachanalyse“, ,,C) 
Maschinelles Lernen“ und „D) Größere Mengen an Trainingsdaten“ wählen. 
Antwort A) wurde 5 (12%) Mal gewählt, B) 11 (26%) Mal, C) 14 (33 %) 
Mal und D) 12 (29 %) Mal (vgl. Abb. 12). Folglich werden verschiedene Ver- 
fahren und Aspekte als vielversprechend für die Entwicklung besserer Systeme 
eingeschätzt, am wenigsten allerdings Netzwerkanalysen und am meisten 
Maschinelles Lernen. 

Im letzten Block ging es vor allem um die Regulierung von Inhalten in 
den sozialen Medien. Bei Frage 8 sollten die Tagungsteilnehmer*innen die 
Regulierung der sozialen Medien beurteilen: „WIE BEWERTEN SIE DIE REGULIERUNG 
VON HATE SPEECH IN SOZIALEN NETZWERKEN HEUTE?“ Die Antwortmöglichkeiten 
waren „A) Zu starke Regulierung“, „B) Angemessen“ und „C) Deutlich zu wenig 
Regulierung“. In der ersten Erhebung antworteten 3 (7 %) und in der zweiten 4 
Personen (9 %) mit A), 9 (20 %) bzw. 8 Personen (19 %) mit B) und 33 (73 %) 
bzw. 31 Personen (72 %) mit C) (vgl. Abb. 13 und 14). Bei dieser Frage fielen die 
Antworten bei den beiden Gruppen am ähnlichsten aus und beide bewerteten die 
aktuelle Regulierung von Hate Speech als zu gering. 
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Auch Frage 9 zielte auf die Regulierungsperspektive ab, aber aus Zukunfts- 
perspektive: ,,WIE WIRD SICH DIE REGULIERUNG VON HATE SPEECH IN SOZIALEN NETZ- 
WERKEN IN ZEHN JAHREN DARSTELLEN?“ Die Befragten konnten sich zwischen ,,A) 
Viel stärkere Regulierung“, „B) Ähnlich wie heute“ oder „C) Sehr viel weniger 
Regulierung“ entscheiden. In der ersten Befragung reagierten 29 (62 %) und in 
der zweiten Befragung 26 (59 %) Personen mit A), 18 (38 %) bzw. 16 (36 %) 
Personen mit B und 0 (0 %) bzw. 2 (5 %) mit C) (vgl. Abb. 15 und 16). Wie in 
der vorherigen Frage waren die Antworten in beiden Runden ähnlich und die 
Befragten rechneten mehrheitlich mit einer stärkeren Regulierung. 

Die zehnte und letzte Frage, die ebenfalls nur während der ersten Tagung 
erhoben wurde, lautete folgendermaßen: „STIMMEN SIE DER FOLGENDEN AUS- 
SAGE ZU? DIE POLITIK LEISTET GENUG, UM HASSREDE IM NETZ ZU BEKÄMPFEN.“ Hier 
waren dieselben fünf Antwortmöglichkeiten wie bei Frage 1 gegeben, näm- 
lich „A) Stimme gar nicht zu“, „B) Stimme eher nicht zu“, „C) Stimme eher 
zu“, „D) Stimme vollauf zu“ und „E) Weiß nicht“. 8 Personen (15 %) reagierten 
mit A), 24 (46 %) mit B), 9 (17 %) mit C), 3 (6 %) mit D) und 8 (15 %) mit E) 
(vgl. Abb. 17). Auch wenn hier die Meinungen relativ stark verteilt waren, wird 
dennoch deutlich, dass die größte Gruppe der Befragten der Meinung ist, dass die 
Politik eher nicht genug gegen Hate Speech unternimmt. 

Zusammengefasst illustriert diese Kurzbefragung daher insgesamt von Seiten 
des Publikums einen Wunsch zu mehr Regulierung. Besonders die Befragten mit 
Vorkenntnissen in NLP standen dem Einsatz von KI zur Regulierung relativ offen 
gegenüber, waren aber, vermutlich aufgrund ihrer Erfahrung mit den Grenzen 
automatischer Erkennungssysteme, häufig etwas skeptischer, was die aktuelle und 
zukünftige Performanz solcher Systeme betrifft. 
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3 Die Beiträge 


In Analogie zum Aufbau der Fachtagung, aus der dieser Band hervorgegangen 
ist, ist dieser Sammelband in drei größere Sektionen gegliedert, die die (rein 
beschreibende) linguistische Perspektive, die computerlinguistische und die 
politikwissenschaftliche widerspiegeln. 

Die ersten beiden Beiträge befassen sich mit der Beschreibung beziehungs- 
weise Rezeption von Hate Speech. Diese Sektion demonstriert nicht nur das 
Interesse der Linguistik an der Aufdeckung sprachlicher Muster, sondern kann 
auch als bedeutsame Grundlage gelten, auf der Gegenmaßnahmen für ver- 
schiedene kommunikative Äußerungen, die Hassrede enthalten, diskutiert 
werden können. In dem Beitrag von Sylvia Jaki geht es um einen Überblick 
über die linguistische Forschung zu Hate Speech, wobei verschiedene sprach- 
liche Kontexte, Medien, Diskurse, Methoden und sprachliche Charakteristika 
berücksichtigt werden, und auch ein Blick auf die Multimodalität von Hate 
Speech geworfen wird. Anders als der erste Artikel beschäftigt sich der Beitrag 
von Oliver Niebuhr und Jana Neitsch mit der Rezeptionsperspektive von Hate 
Speech, die bislang noch als weniger gut erforscht gilt. Er präsentiert eine Über- 
sicht zur Forschung der Autor*innen zu gesprochener versus geschriebener Hate 
Speech, die auch den sozialen Kontext der Rezeptionssituation mit in die Analyse 
einbezieht. 

Die zweite Sektion ist der computerlinguistischen Perspektive gewidmet, 
wobei Verfahren zur automatischen Erkennung vorgestellt und diskutiert werden. 
Christoph Demus, Dirk Labudde, Jonas Pitz, Nadine Probol, Mina Schütz 
und Melanie Siegel stellen das Thema anhand von Prozessen und Vorgehens- 
weisen sogenannter Shared Tasks vor, indem sie nicht nur einen Überblick über 
bereits durchgeführte Shared Tasks und deren Methoden bzw. Ergebnisse bieten, 
sondern auch in die mit dem Aufbau einer Datensammlung für einen Shared Task 
verbundenen Schritte und Schwierigkeiten einführen. Johannes Schäfer greift 
Problembereiche computerlinguistischer Forschung zu Hate Speech auf, unter 
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anderem die mangelnde Berücksichtigung des sprachlichen Kontextes. Der Bei- 
trag stellt verschiedene Lösungsansätze für die automatische Erkennung von 
Hate Speech vor und unterscheidet dabei lexikonbasierte Systeme, erklärbare 
maschinelle Lernsysteme und neuronale Netzwerke. Die Auswahl der Trainings- 
daten entscheidet maßgeblich über die Leistungsfähigkeit automatisierter 
Hate-Speech-Erkennung. Thomas Mandl untersucht daher die Bedeutung von 
Trainingsdaten auch mit Blick auf die Erklär- und Nachvollziehbarkeit der Ergeb- 
nisse automatisierter Verfahren. Roman Klinger stellt anhand verschiedener 
Textgattungen die Möglichkeiten der automatisierten Emotionsanalyse vor. 
Dabei plädiert er für eine Untersuchung mit Hilfe der Appraisaltheorien, um den 
Zusammenhang zwischen kognitiven Prozessen und Emotionen zu erklären. 

Der dritte Teil dieses Bandes ist der Regulation von Hassrede im Inter- 
net gewidmet und fokussiert damit die politikwissenschaftliche Sicht. Wolf 
Schünemann und Stefan Steiger bieten einen Überblick über die bestehende 
politikwissenschaftliche Forschungslandschaft und gehen dabei der Frage nach, 
ob sich im Kontext der Regulation von Hate Speech ein Paradigmenwechsel auf 
Seiten der liberalen Demokratien abzeichnet, die lange Zeit vor der Regulation 
von Inhalten im Netz zurückschreckten, nun aber immer aktiver gegen die Ver- 
breitung von Hate Speech vorgehen. Als logische Konsequenz dieser Über- 
legungen schließt sich der Beitrag von Doris Unger und Jürgen Unger-Sirsch 
an, in dem die Autor*innen die Ziele von Hate-Speech-Regulierung darlegen 
und auf dieser Basis konkrete Richtlinien herausarbeiten. Anhand dieser Richt- 
linien wird wiederum ein konkreter Fall, der Umgang mit gruppenspezifischen 
Schimpfwörtern, reflektiert. Deep Fakes, die sich im Spannungsfeld zwischen 
Desinformation und Hate Speech befinden, werden einschließlich ihres Gefahren- 
potenzials im abschließenden Artikel von Murat Karaboga diskutiert. Der 
Beitrag behandelt mit dem Digital Services Act und dem KI-Regulierungsvor- 
schlag der EU-Kommission insbesondere die Bemühungen zur Regulierung auf 
europäischer Ebene. 


Danksagungen An dieser Stelle möchten wir, auch im Namen von Thomas Mandl, 
Ulrich Heid, Wolf Schünemann und Johannes Schäfer, dem Niedersächsischem 
Ministerium für Wissenschaft und Kultur herzlich danken, das das Projekt HASeKI und 
damit auch diesen Tagungsband im Rahmen der Förderlinie Zukunftsdiskurse gefördert 
hat. Überdies bedanken wir uns bei Daphne Cetta, die die Durchführung der beiden 
Tagungen durch ihr organisatorisches Talent erst möglich gemacht hat, und bei den 
studentischen Hilfskräften, die uns im Rahmen des Projekts tatkräftig unterstützt haben. 
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Hate Speech in sozialen Medien: Ein 
Forschungsüberblick aus Sicht der 
Sprachwissenschaft 


Sylvia Jaki 


1 Einführung 


Hate Speech ist ein genuin interdisziplinärer Forschungsgegenstand (vgl. z. B. 
Marx, 2018), der in den letzten Jahren in verschiedensten Bereichen wie der 
Politikwissenschaft, der Psychologie und nicht zuletzt der Linguistik große Auf- 
merksamkeit erfahren hat. In der Linguistik sind die meisten Publikationen zu 
Hate Speech in den Bereich der Sprachtechnologie einzuordnen, und hier geht es 
primär um die automatische Erkennung von Hate Speech (vgl. hierzu auch die 
Beiträge in diesem Band von Demus et al., Mandl und Schäfer). Zum Teil werden 
zwar auch in diesen Beiträgen einzelne sprachliche Charakteristika analytisch 
vorgestellt, das Hauptziel ist jedoch nicht eine rein sprachliche Analyse, wie dies 
im Bereich der beschreibenden Sprachwissenschaft der Fall ist. Im Vergleich 
zu Arbeiten aus der Sprachtechnologie sind solche, die primär darauf abzielen, 
sprachliche Charakteristika von Hate Speech darzustellen, weniger geläufig. 
Gleichzeitig ist die Etablierung eines Inventars an sprachlichen Mustern wichtig, 
um Fälle von Rechtswidrigkeiten anhand konkreter sprachlicher Kriterien ein- 
deutiger bestimmen zu können (Ruzaite, 2018, S. 94). Daher ist es umso ver- 
wunderlicher, „how little is known about the linguistic and communicative 
mechanisms underlying the expression and perception of hate speech“ (Baum- 
garten et al., 2019, S. 87). Wie dieser Beitrag zeigen wird, ist der Forschungs- 
stand in Bezug auf verschiedene sprachliche Charakteristika sehr unterschiedlich, 
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denn gerade zu lexikalischen Eigenschaften von Hate Speech wie zum Beispiel 
Entmenschlichungsmetaphern ist bereits einiges bekannt, während sprachliche 
Ebenen wie die Pragmatik im Bereich der Hate-Speech-Forschung bisher deutlich 
weniger Aufmerksamkeit erfahren haben. 

Im Folgenden soll der State of the Art im Bereich der linguistischen Hate- 
Speech-Forschung überblickshaft skizziert werden, wobei vereinzelt auch die 
beschreibenden Anteile von Arbeiten aus anderen Disziplinen herangezogen werden 
können, sofern sie substanzielle Einblicke in die sprachlichen Charakteristika von 
Hate Speech erlauben. In Abschn. 2 soll zunächst eine Einführung in den Begriff 
Hate Speech erfolgen, bevor Abschn. 3 einen Einblick in die verschiedenen Schwer- 
punkte von sprachwissenschaftlichen Fallstudien bietet. Neben einer Kurzdar- 
stellung von vorherrschenden Ansätzen, untersuchten Diskursen, Medien und 
Sprachen werden hier auch einige konkrete sprachliche Charakteristika präsentiert 
und anhand konkreter Tweets in den Sprachen Deutsch, Englisch und Nieder- 
ländisch illustriert. Diese Tweets stammen aus dem EU-geförderten Projekt Detect 
then Act, in dessen Rahmen ein Dashboard zur Identifikation von Hate Speech auf 
Twitter entstand, mit dessen Hilfe die meisten der in diesem Artikel verwendeten 
Tweets ausgewählt wurden. Der Beitrag schließt mit einer Zusammenfassung 
des Forschungsüberblickes und dessen Implikationen für zukünftige Forschungs- 
tendenzen (Abschn. 4). Das Fazit beinhaltet überdies ein Plädoyer für eine multi- 
modale Hate-Speech-Forschung, die neben verbalem Text auch die zahlreichen 
weiteren Bedeutungsressourcen digitaler Kommunikationskontexte berücksichtigt. 


2 Hate Speech 


Der für verschiedene Phänomene sprachlicher Aggressivität und Diskriminierung 
in der Fachliteratur vorherrschende Begriff ist Hate Speech. Bei Smulczyhski 
(2019) wird der Begriff Hasssprache verwendet, bei Meibauer (2013) Hass- 
rede. Auch der Begriff des Flaming ist hier relevant, denn er bezeichnet 
„messages showing attributes such as hostility, aggression, intimidation, insults, 
offensiveness, unfriendly tone, uninhibited language, and sarcasm“ (Turnage, 
2007, S. 44). Ein weiterer Begriff, der mit Hate Speech in Verbindung gebracht 
wird, ist der des Cyberbullying. Hierunter versteht man den Versuch, Menschen 
durch Beleidigungen und andere erniedrigende Äußerungen zu verletzen und ihre 
Persönlichkeit zu degradieren (Marx, 2013, S. 103). 

Zur Definition von Hate Speech kann folgende vielzitierte Passage aus 
Meibauer (2013, S. 1) herangezogen werden: „Unter Hate Speech — hier über- 
setzt mit ,Hassrede‘ — wird im Allgemeinen der sprachliche Ausdruck von 
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Hass gegen Personen oder Gruppen verstanden, insbesondere durch die Ver- 
wendung von Ausdrücken, die der Herabsetzung und Verunglimpfung von 
Bevölkerungsgruppen dienen.“ Es handelt sich dabei folglich um eine sprach- 
liche Handlung (vgl. Marx, 2018, S. 38). Marsters (2019, S. 19) betont für den 
US-amerikanischen Kontext, dass gleichzeitig eine Anstiftung zu Gewalt oder 
Animositäten gegenüber dem Target gegeben sein muss, um von Hate Speech 
sprechen zu können.! Unter dem Target einer diskriminierenden Äußerung ver- 
steht man die Person oder die Gruppe, auf die sie abzielt. Die Gruppen und 
Individuen, gegen die sich Hate Speech richtet oder richten kann, sind fast 
unbegrenzt — die große Reichweite, angefangen bei Migrant*innen und Mit- 
bürger*innen anderer Religionen über Frauen, Homosexuelle, Transfrauen/- 
männer bis hin zu Veganer*innen, Menschen mit Behinderungen uvm., zeigt, dass 
es kaum menschliche Charakteristika gibt, die nicht zur Zielscheibe von Hate 
Speech werden können. 

Obwohl Hate Speech nicht zwangsläufig immer mit Hass zu tun hat (Geyer, 
2017, S. 3), handelt es sich um einen stark emotional besetzten Begriff, da er mit 
Phänomenen wie beispielsweise Intoleranz, Diskriminierung, Hass, Feindselig- 
keit, Stereotypisierung und Aggression assoziiert wird (Ruzaite, 2018, S. 96). 

Der Bereich, in dem Hate Speech vorwiegend, wenngleich auch nicht 
ausschließlich, zu beobachten ist, sind Online-Kontexte aller Art, insbesondere 
die sozialen Netzwerke. Dies kann als Kehrseite der Tatsache gesehen werden, 
dass das Internet eine verstärkte Partizipation der Zivilgesellschaft ermög- 
licht, denn diese „can assume a more active role, as creators and co-creators 
of new content“, was wiederum die Möglichkeiten zur Verbreitung von dis- 
kriminierenden Äußerungen erleichtert (Arroyo Löpez & Moreno Löpez, 2017, 
S. 11). 


3 Fallstudien 


Fallstudien, die Hate Speech aus vollständig oder teilweise sprachwissenschaft- 
licher Sicht beleuchten, unterscheiden sich nach den folgenden Aspekten: 


!Vgl. zum Beispiel die Erläuterungen in Jaki und De Smedt (2019) zu Unterschieden 
zwischen Europa und den USA in Bezug auf die rechtliche Situation im Bereich Hate 
Speech. 
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e den methodischen Herangehensweisen, 

e den Targets, 

e den Diskursen, 

e den Medien, 

e den untersuchten Sprachen, 

e den untersuchten sprachlichen Charakteristika. 


Der Forschungsstand zu diesen Aspekten soll an dieser Stelle exemplarisch 
skizziert werden, um Trends in der sprachwissenschaftlichen Hate-Speech- 
Forschung herauszuarbeiten, wobei ein Anspruch auf Vollständigkeit explizit 
nicht gegeben ist. Hierbei werden Arbeiten berücksichtigt, die sich konkret mit 
dem Phänomen Hate Speech befassen, aber auch solche, die damit verbundene 
Themen untersuchen, beispielsweise bestimmte sprachliche Charakteristika der 
Pejoration. Besonders das EU-geförderte Projekt C.O.N.T.A.C.T, das sich vor 
allem mit Online-Kommentaren zu Berichten und mit der Wahrnehmung von 
Hate Speech beschäftigt hat (vgl. Assimakopoulos etal., 2017), hat zu zahl- 
reichen Publikationen im Bereich der linguistischen Hate-Speech-Forschung zu 
verschiedenen europäischen nationalen Kontexten beigetragen (z. B. Ruzaite, 
2018 und alle Beiträge in Assimakopoulos etal., 2017), und zwar Däne- 
mark, Griechenland, Zypern, Italien, Litauen, Polen, Spanien und Malta. Das 
Anschlussprojekt XPEROHS (z.B. Baumgarten etal., 2019 sowie Neitsch 
und Niebuhr in diesem Band), konzentriert sich auf die Sprachen Dänisch und 
Deutsch. Auch die Forschung zum Thema Cyberbullying, das zahlreiche Über- 
lappungen mit Hate Speech aufweist, soll hier erwähnt werden. Diese wurde im 
deutschen Raum maßgeblich von Marx (z. B. 2013, 2017) vorangebracht. 


3.1 Methodische Herangehensweise 


Generell lassen sich die empirischen Arbeiten zum Thema in erster Linie danach 
kategorisieren, ob qualitativ oder quantitativ vorgegangen wird. Häufig liegen 
auch gemischte Ansätze vor, die beides kombinieren (Hardaker & McGlashan, 
2016; Jaki & De Smedt, 2019; Jaki etal., 2019; Lewandowska-Tomaszczyk, 
2016, 2017; Marsters, 2019; Nick, 2018). Typisch ist hier unter anderem eine Ver- 
bindung von korpuslinguistischen Methoden mit qualitativer (mitunter Kritischer) 
Diskursanalyse (Brindle, 2016; Marsters, 2019; Musolff, 2015). Ruzaite (2018) 
verwendet einen differenzierten korpuslinguistischen Ansatz und zeigt, an 
welchen Stellen ein quantitatives Vorgehen an seine Grenzen stößt. 
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Rein quantitativ arbeiten dagegen Baumgarten et al. (2019) und ElSherief 
etal. (2018). Konkrete Methoden, die bei quantitativer Hate-Speech-Forschung 
zum Tragen kommen, sind beispielsweise Keywordanalyse (z.B. in Brindle, 
2016; ElSherief et al., 2018; Jaki et al., 2019; Ruzaite, 2018), Kollokations- und 
Konkordanzanalyse (Brindle, 2016; Jaki & De Smedt, 2019; Ruzaite, 2018), 
Clusteranalyse (Jaki & De Smedt, 2019) und Sentimentanalyse (Jaki & De 
Smedt, 2019; Jaki et al., 2019). 

Qualitativ orientierte Untersuchungen bieten dagegen beispielsweise Agnetta 
(2018), Kalasznik (2018), Kleinke (2007), Kopytowska und Stawikowska- 
Marcinkowska (2020), Marx (2013, 2018), Smutczynski (2019) sowie Stojić und 
Brala-Vukanovic (2017). Hier werden wiederum Methoden aus unterschiedlichen 
Teilbereichen der Linguistik eingesetzt, so aus der Kognitiven Linguistik wie 
in der Metaphernanalyse von Agnetta (2018), der Pragmatik wie in der Analyse 
verbaler Ablehnung mithilfe verschiedener Konzepte sprachlicher Höflichkeit in 
Kleinke (2007) oder der Lexikologie bzw. Lexikographie, wenn Stojić und Brala- 
Vukanović (2017) Elemente lexikalischer Abwertung aus Wörterbucheinträgen 
zusammenstellen. 


3.2 Targets und Diskurse 


Häufig korrelieren Targets mit bestimmten Diskursen, weswegen diese beiden 
Aspekte im Folgenden zusammen vorgestellt werden sollen. So richten sich 
Äußerungen im Feminismusdiskurs beispielsweise häufig gegen Feminist*innen 
oder im Veganismusdiskurs gegen Veganer*innen. Dementsprechend über- 
zeugend ist auch die stark diskursanalytische Ausrichtung von Assimakopoulos 
etal. (2017). Nichtsdestoweniger handelt es sich hier nicht um einen Automatis- 
mus, d.h. dass zum Beispiel Social-Media-User*innen mitunter aufgrund ihres 
Aussehens, ihres Geschlechts oder anderer Charakteristika unabhängig vom Dis- 
kurs sprachliche Diskriminierung erfahren. 

Besonders gut beforscht ist insgesamt Hate Speech gegen Migrant*innen im 
Allgemeinen und Geflüchtete im Besonderen (z. B. Kopytowska & Stawikowska- 
Marcinkowska, 2020; Kreis, 2017) bzw. der Immigrationsdiskurs, der häufig in 
Bezug auf die Darstellung von Migrant*innen in verschiedenen Medien unter- 
sucht wird (z. B. Agnetta, 2018; Musolff, 2015), und auch einer der beiden 
Hauptschwerpunkte des Projekts C.O.N.T.A.C.T. lag in Migrant*innen als 
Targets. Zur Sprache des Rassismus allgemein forscht überdies Hoffmann (2020), 
zu rechtsextremistischen Diskursen beispielsweise Baumgarten (2017) oder Jaki 
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und De Smedt (2019). Deutlich weniger Forschung aus linguistischer Perspektive 
wird bislang noch im Bereich Sexismus bzw. Antifeminismus (zum Beispiel 
Hardaker & McGlashan, 20167; Jaki et al., 2019) und LGBTQ + (Brindle, 2016 zu 
Homosexualität sowie die verschiedenen Teiluntersuchungen von C.O.N.T.A.C.T) 
betrieben. Um Terrordiskurse geht es bei Smutczynski (2019) und Opitowski 
(2020), bei Lewandowska-Tomaszczyk (2016, 2017) um die Griechenlandkrise 
im Jahr 2015. Diskurse, die Hate Speech selbst thematisieren, werden in Marx 
(2018) behandelt. 


3.3 Medien 


Besonders die sozialen Medien, die durch ihre relative Anonymität und ihre 
Enthemmungseffekte als Beförderer von Polarisierung und Hate Speech gelten 
(vgl. Hardaker & McGlashan, 2016, S. 82), werden häufig als Datenbasis heran- 
gezogen. Hier wird vor allem mit Twitter (Dynel, 2021; ElSherief et al., 2018; 
Hardaker & McGlashan, 2016; Jaki & De Smedt, 2019; Kreis, 2017; Marx, 
2018) und Facebook (Greule et al., 2020; Opitowski, 2020; Smutczynski, 2019) 
gearbeitet; zum Teil werden auch beide sozialen Netzwerke kombiniert (Baum- 
garten etal., 2019; Marx, 2018). Mit YouTube befassen sich beispielsweise 
Bou-Franch und Garcés Blitvitch (2014) sowie Kopytowska und Stawikowska- 
Marcinkowska (2020). Generell stehen allerdings verschiedenste Arten von 
Online-Medien im Fokus der linguistisch orientierten Hate-Speech-Analyse, 
denn „[vJom Virus der Hasssprache sind heute fast alle Domänen der Internet- 
kommunikation betroffen: Blogs, Chats, Soziale Medien oder Leserforen“ 
(Smulczynski, 2019, S. 227). Manche Publikationen ziehen eine Reihe von 
Online-Medien exemplarisch heran (z. B. Agnetta, 2018; Musolff, 2015), die 
Mehrheit konzentriert sich jedoch auf ein konkretes Medium. So untersuchen 
Ruzaite (2018) und Lewandowska-Tomaszczyk (2016, 2017) Kommentare 
za Nachrichten im Internet. Kleinke (2007) widmet sich konkret dem Dis- 
kussionsforum von Spiegel Online. Brindle (2016) beschäftigt sich mit der 
Website Stormfront, Marx (2013) im Kontext von Cyberbullying mit der Inter- 
netseite Isharegossip.com und Jaki et al. (2019) mit einem Forum fiir involuntary 
celibates (Manner, denen sexuelle Kontakte verwehrt bleiben), incels.me. Nick 
(2018) dagegen untersucht 30 anonyme Drohbriefe, die im Rahmen der US- 
Präsidentschaftswahl 2016 offline entstanden sind. 


? Hier geht es speziell um sprachliche Charakteristika von Vergewaltigungsandrohungen. 
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3.4 Sprachen 


Die meisten Arbeiten, die sprachliche Charakteristika von Hate Speech 
beschreiben, liegen zweifelsohne zum Englischen vor (z.B. Baumgarten, 
2017; Brindle, 2016; ElSherief et al., 2018; Hardaker & McGlashan, 2016; Jaki 
etal., 2019; Lewandowska-Tomaszczyk, 2016, 2017; Marsters, 2019; Musolff, 
2015; Nick, 2018; Stojić & Brala-Vukanovic, 2017). Jedoch beschäftigen sich 
auch zahlreiche Autor*innen mit der deutschen Sprache, so beispielsweise 
Agnetta (2018), Baumgarten etal. (2019), Jaki und De Smedt (2019), Kleinke 
(2007), Kopytowska und Stawikowska-Marcinkowska (2020), Marx (2018), 
Smutczynski (2019) oder Stojić und Brala-Vukanovié (2017). Agnetta (2018) 
enthält neben deutschem auch französisches und italienisches Sprachmaterial. 
Auch zur polnischsprachigen Hate Speech wurden bereits einige Beiträge verfasst 
(Kopytowska & Stawikowska-Marcinkowska, 2020; Lewandowska-Tomaszczyk, 
2016, 2017; Opitowski, 2020; Smutczynski, 2019). Sowohl Lewandowska- 
Tomaszczyk (2016, 2017) und Smuiczynski (2019) gehen hierbei kontrastiv vor. 
Die Arbeiten ergeben, dass polnische Hate Speech zu Zeitungsartikeln im Inter- 
net mehr graphische Marker (z. B. Schreibung in Großbuchstaben oder Gebrauch 
von Ausrufezeichen) emotionaler Aufgeladenheit als englische enthalten 
(Lewandowska-Tomaszczyk, 2016, S. 81) bzw. dass die untersuchte polnisch- 
sprachige Hate Speech generell eine höhere Intensität aufweist als die deutsche 
oder dänische (Smulczynski, 2019, S. 231). Neben den bereits genannten 
Sprachen liegen vereinzelt auch Arbeiten zum Dänischen (Baumgarten et al., 
2019; Geyer, 2019; Smutczynski, 2019) und zum Litauischen (Ruzaite, 2018) vor. 


3.5 Charakteristika 


Die in den vorigen Abschnitten vorgestellten Publikationen beschäftigen sich mit 
einer Vielzahl sprachlicher Charakteristika und bieten zum Teil auch eine Über- 
sicht über verschiedenste sprachliche Strategien der Diskriminierung (z.B. in 
Jaki & De Smedt, 2019; Marx, 2018; Meibauer, 2013; Nick, 2018; Smutczyhski, 
2019), die im Folgenden nur exemplarisch vorgestellt werden können. 

Die meisten Arbeiten befassen sich mit pejorativer Lexik. In diesen Bereich 
fallen insbesondere pejorative Personenbezeichnungen, also lexikalische Ein- 
heiten, die eine negative Bewertung von Personen enthalten. Diese sind in 
sozialen Netzwerken häufig auch in Hashtags zu finden (1). 
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(1) Shut the fuck up, you tangerine-dusted blunder muppet mendacious 
fuckbilled twatypus hoofwanking _bunglecunt! #FakePresident 
#RacistInChief #AmericanTraitor #LiarInChief #CrookedTrump 
#PresidentCOVIDIOT #ChingaTuMAGA #Loser 


Hieriiber geben in quantitativen Arbeiten beispielsweise Keywordanalysen Auf- 
schluss (z.B. ElSherief etal., 2018). Abwertende ethnische Bezeichnungen 
(Ethnophaulismen) spielen vor allem in Baumgarten et al. (2019) eine prominente 
Rolle. Sie umfassen zum Beispiel deutsche Bezeichnungen wie Kanake, Nafri, 
Polacke oder Zigeuner oder auch gegen Deutsche gerichtete Bezeichnungen wie 
Alman, Piefke, Kartoffel oder Kraut (2). 


(2) leftist scumbags/Soros. Orban is a beacon. What about the Krauts? Haven’t 
they a similar emergency legislation? 


Hierbei handelt es sich um eine Art der Stereotypisierung?. Auffällig ist in diesem 
Zusammenhang, dass stereotype Personenbezeichnungen häufig in Form von 
Komposita auftreten, zum Beispiel Teppichknutscher oder Kanakenfotzen (Jaki & 
De Smedt, 2019, S. 14) zur Bezeichnung von Gruppen oder angstpsychopaat zur 
Bezeichnung eines Individuums (3). 


(3) In vredesnaam, welke debiel gelooft nog wat deze angstpsychopaat allemaal 
uitkraamt? Wie? (dt. ‚Welcher Debile glaubt um Himmels willen noch, was 
dieser Angstpsychopath ständig von sich gibt? Wer?‘) 


Pejorative Personenbezeichnungen werden in Stojić und Brala-Vukanovic (2017) 
nach morphologischen (unter anderem abwertende Suffixe wie dt. —/er oder 
engl. -tard) und semantischen Gesichtspunkten untergliedert. Die Autorinnen 
heben hervor, dass solche Bezeichnungen nicht unbedingt ein negatives Sem ent- 
halten müssen wie die abwertende Bezeichnung für eine Frau in (4), sondern dass 
manche Wörter nur in bestimmten Kontexten eine negative Konnotation erhalten, 
was vor allem auf Lexeme aus dem Bereich der Fauna (5) zutrifft (Stojić & Brala- 
Vukanovic, 2017, S. 68 f.). 


3Diese und andere sprachliche Strategien der Stereotypisierung werden beispielsweise 
auch von Marx (2013) in Bezug auf Cyberbullying untersucht. Hoffmann (2020), der 
verschiedene Formen der Generalisierung als eines der Hauptmerkmale rassistischer 
Äußerungen nennt, illustriert diese mit historischem und aktuellem Material. 
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(4) Knetter gestoord imbeciel wijf. (dt. ‚Irres, gestörtes, schwachköpfiges Weib‘) 
(5) Alle die #Merz jetzt als Lichtblick sehen, sind dumme Schlafschafe. 


Bei (5) liegt eine Entmenschlichungsmetapher vor, die ein häufig beobachtetes 
Phänomen in Hate Speech darstellt (z. B. Musolff, 2015). Es handelt sich dabei 
um einen gängigen sozialen Mechanismus, bei dem anderen Individuen der 
Status eines Menschen aberkannt wird — problematisch ist dies vor allem, da Ent- 
menschlichung Konflikte verschärfen, Empathie verringern und im schlimmsten 
Fall sogar die Hemmschwelle für Gewalt reduzieren kann (vgl. Cassese, 2020, 
S. 108). In diesem Sinne werden beispielweise Migrant*innen in rechts- 
extremistischer deutscher Hate Speech auf Twitter häufig als Parasiten, Pack, 
Abschaum, Gesindel oder Müll bezeichnet (Jaki & De Smedt, 2019, S. 11). 
Interessant ist, dass Entmenschlichung in vereinzelten Situationen nicht nur für 
die Abwertung der Out-Group, sondern auch für die Beschreibung der In-Group 
verwendet wird: So verwenden involuntary celibates nicht nur für Frauen und 
attraktive Konkurrenten Entmenschlichungsmetaphern, sondern auch für andere 
involuntary celibates und als Selbstzuschreibung, so zum Beispiel in Usernamen 
wie Subhuman Trash oder Melancholy_Worm im Forum incels.me (Jaki et al., 
2019, S. 257 f.). Dass die Konzeptualisierung von Targets als nicht-menschliche 
Entitäten von Tieren (6) über Ungeziefer (7) bis hin zu unbelebten Entitäten wie 
Abfall und Ahnlichem (8 und 9) reicht, demonstrieren auch folgende Beispiele 
aus Twitter: 


(6) Der Spinner ist ein asoziales Dreckschwein. PUNKT. 

(7) Vermin who only want to out-vermin the verminest vermin, while some of us 
are on Twitter for the jokes and shared humanity. 

(8) Wählt diesen Scheißhaufen eigentlich noch jemand zu dem auch dieser wirk- 
lich sympathische junge Mann gehört? Wenn ja, dann -um mal jemanden 
sehr klugen zu zitieren- legt euch gehackt! 

(9) Met voorlichting ga je agressief tuig niet tegenhouden. Vooral buitenlanders 
niet. (dt. ,Mit Ausbildung kann man aggressives Zeug nicht aufhalten. Vor 
allem keine Ausländer. ‘) 


Auch andere Arten von Metaphern werden in sprachwissenschaftlichen Arbeiten 
thematisiert, insbesondere wenn es um die Darstellung von Geflüchteten im 
Migrationsdiskurs geht (z. B. Agnetta, 2018; Katasznik, 2018). So demonstriert 
Agnetta (2018), wie die ankommenden Geflüchteten als WASSERMASSEN dar- 
gestellt werden. Hier geht es zwar nicht um Hate Speech per se, aber um ein 
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Phänomen, das in Hate Speech häufig vorkommt bzw. in der Kritik steht, durch 
negatives Framing die gesellschaftliche Polarisierung zu fördern. 

Dass sich Diskriminierung und Ahnliches nicht nur auf der Ein-Wort- 
Ebene manifestiert, sondern es auch Konstruktionen gibt, die fiir Hate Speech 
charakteristisch sind, zeigen Baumgarten etal. (2019) anhand von hoch- 
frequenten Konstruktionen wie Ich bin kein Rassist, aber oder Ich habe nichts 
gegen X, aber und die ach so. Über die Wortebene hinaus bewegt sich auch die 
Analyse von Sprachhandlungen, die Greule et al. (2020) in Facebook-Einträgen 
von Pegida exemplarisch anhand von KRITISIEREN untersuchen, wie sie auch 
in Hate Speech auf Twitter häufig auftritt (10). In Opitowski (2020) werden 
Facebook-Kommentare mit Hilfe der Sprachhandlungen BELEHREN, HERAB- 
WÜRDIGEN, BEDROHEN, BELEIDIGEN und KRITISIEREN AM VER- 
HÖHNEN kategorisiert und durch Texthandlungen auf die multimodale Ebene 
übertragen. Jaki und De Smedt (2019, S. 20 f.) geben einen exemplarischen Ein- 
blick in Sprechakte in rechtsextremistischer Hate Speech und kommen zu dem 
Schluss, dass die expressiven Sprechakte (11) in den untersuchten Twitter-Daten 
den höchsten Grad an Aggressivität und Abwertung aufweisen. 


(10) #Kameltreiber Wegen einer harmlosen #Kameltreiber Aussage soll ein 
Trainer zurücktreten, während 3 #Vergewaltiger draußen frei herumlaufen. 
Hat einer dieser schwachsinnigen #Rassismus Sucher dazu was getwittert? 
Fehlanzeige! #Flüchtlinge 

(11) ich hasse hasse hasse kanaken 


Andere Arbeiten kontrastieren verschiedene Arten von Hate Speech in Bezug 
auf ihre sprachlichen Charakteristika. Interessant ist in diesem Zusammenhang 
beispielsweise die Untersuchung von Marsters (2019), die analysiert, durch 
welche sprachlichen Charakteristika im schriftlichen Diskurs auf eine erhöhte 
Gewaltbereitschaft geschlossen werden kann. Die untersuchten Kategorien 
schließen beispielsweise Modalverben, Personalpronomina und Schimpfwörter 
mit ein. Ein Ergebnis in ElSherief et al. (2018) ist, dass generalisierende Hate 
Speech (12) im Vergleich zu gerichteter Hate Speech (13) emotionalere Sprache 
aufweist, weniger informell und weniger aggressiv ist, stärker mit they (Othering) 
arbeitet und mehr Wörter aus dem Wortfeld death aufweist. 


(12) Wo sind denn die Wasserwerfer? Wird Zeit.... ekelhafte Egoisten und 
Idioten. ich könnte Kotzen bei so vielen Hackfressen... 

(13) Was jaja du dumme schlampe bevor ich dich Keller ankette und dich 
3 Tage verhungern lasse du dumme nutte 
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Nicht zu vernachlässigen ist überdies die Tatsache, dass sich Hate Speech auf 
der Ebene der konkreten kommunikativen Handlung manifestiert und nicht not- 
wendigerweise an eine konkrete sprachliche Oberfläche gebunden ist. Dies 
bedeutet einerseits, dass es auch diverse Formen indirekter Hate Speech gibt 
(vgl. Ruzaite, 2018). So zeigen Bou-Franch und Garcés Blitvitch (2014) bei- 
spielsweise anhand von Kommentaren auf YouTube-Videos, die ein Bewusstsein 
für Gewalt gegen Frauen schaffen wollen, dass nur die wenigsten Kommentare 
explizit Gewalt gegen Frauen verherrlichen, sondern dass implizite und 
indirekte Formen überwiegen. Andererseits können Äußerungen, die schein- 
bar Hate Speech, zum Beispiel in Form von Beleidigungen, darstellen, auch 
scherzhaft gemeint sein und werden von den Rezipierenden im Idealfall nicht 
als Beleidigungen interpretiert (vgl. Dynel, 2021). Aus forschungstechnischer 
Sicht sind diese Arten auch deshalb besonders reizvoll, da sie einen hohen 
Dekodierungsaufwand besitzen. Überdies entziehen sie sich bei der auto- 
matisierten Erkennung von Hate Speech, die sich an der sprachlichen Ober- 
fläche orientiert, häufig einer korrekten Klassifizierung, denn hier liegen wichtige 
Kontextinformationen meist nicht vor (vgl. Schmidt & Wiegand, 2017, S. 8). 
Dies würde vermutlich auch auf Beispiel (14) zutreffen, in dem der ursprüng- 
lich weltoffene Hashtag #RefugeesWelcome ironisch verwendet wird, um eine 
migrant*innenfeindliche Äußerung zu tätigen, und die sprachliche Oberfläche 
zwar eine kritisch Einstellung reflektiert, aber wenig der in diesem Kontext 
üblicherweise verwendeten Rhetorik aufweist. Auch (15) verwendet Ironie und 
könnte nur schwer als Hate Speech ausgewiesen werden, wenn der Tweet nicht 
mit dem eindeutig negativ konnotierten Hashtag #MultikultiTodeskulti schließen 
würde, der einen Anhaltspunkt für die Interpretation liefert. 


(14) Ich muss ehrlich gestehen, dass ich die aufdringlichen Einwanderer als 
absolut störend empfinde. Wie kriegen wir diese Leute eigentlich wieder 
aus unserem schönen Land? #RefugeesWelcome 

(15) Am Mittwoch fühlte sich ein zum #Islam konvertierter Däne dazu berufen, 
den Menschen in #Norwegen islamische Sitten und Gebräuche mit der 
gebührenden Toleranz gegenüber Andersgläubigen näherzubringen. #Kon- 
vertit #WirHabenPlatz #MultikultiTodeskulti 
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4 Fazit und Plädoyer für eine multimodale 
Betrachtung von Hate Speech 


Der Überblick über verschiedene Arbeiten, die Hate Speech aus sprachwissen- 
schaftlicher Sicht beschreiben, in diesem Beitrag hat zeigt, dass vor allem der 
Wortebene hohe Aufmerksamkeit zuteil wird, da hier zahlreiche Strategien 
existieren, um sprachlich ein Feindbild zu konstruieren. Gleichzeitig wird 
deutlich, dass Hate Speech auch über die Wortebene hinaus charakteristische 
Merkmale aufweist, die nicht vernachlässigt werden sollten. Auch darf man nicht 
Gefahr laufen, Hate Speech mit aus dem Kontext gelösten pejorativen Wörtern 
gleichzusetzen, da diese immer im Kontext zwischen Sender und Empfänger 
entsteht (Marx, 2018, S. 49; vgl. auch Nick, 2018, S. 186). So stellen besonders 
Untersuchungen zur pragmatischen Ebene von Hate Speech und allgemein zu 
indirekter Hate Speech noch ein stärkeres Desiderat dar als Untersuchungen auf 
der lexikalischen Ebene. 

Der Fokus der Ausführungen lag klar auf der rein verbalen Ebene, wie 
dies für die Mehrheit linguistischer Arbeiten zu Hate Speech der Fall ist (mit 
Ausnahme beispielsweise von Arbeiten wie Kreis, 2017; Opitowski, 2020). 
Kommunikation in sozialen Medien ist jedoch bei weitem nicht auf verbalen 
Text beschränkt, sondern ist multimodal. Multimodal sind Kommunikate, „which 
combine various sign systems (modes) and whose production and reception 
calls upon the communicators to semantically and formally interrelate all sign 
repertoires present“ (Stöckl, 2004, S. 9). Posts und Kommentare in den sozialen 
Medien sind insofern multimodal, als sie interaktive Bedeutungsressourcen, 
Text- und Bildelemente einschließen. Wie Abb. 1 für Twitter demonstriert, 
gehören zu diesen interaktiven Ressourcen beispielsweise Verlinkungen (hier: 
Link auf die Tagungswebsite), Mentions (Verweise auf andere User*innen) oder 
Hashtags (#HateSpeech, #HASeKl, #IPHSE2, #unihildesheim). Hinzu kommen 
die über dem Tweet platzierten Metainformationen zur Userin (@sylviajaki), 
das Profilfoto (hier unkenntlich gemacht) und der Tweetzeitpunkt (28 Min. vor 
Aufnahme des Screenshots) sowie die am Ende platzierten Möglichkeiten zum 
Kommentieren, Retweeten, Liken und Teilen (einschl. weiterer Funktionen) 
beziehungsweise Informationen zu Kommentaren, Likes (3), Retweets (4) sowie 
bei eigenen Tweets zur Tweet-Statistik. Darüber hinaus prägen den Tweet Bild- 
elemente, und zwar Emojis und eingebettete Bilder aus verlinkten Artikeln, Fotos, 
Memes usw. (hier: hinzugefügtes Bild, das sich auch auf der verlinkten Website 
befindet). Verbaler Text, der für die Linguistik besonders relevant ist, findet sich 
hier im Posttext (bzw. potenziell in Kommentaren zum Post) und als Text im Bild. 
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Sylvia Jaki @sylviajaki - 28 Min. 

© "Save the date(s): Zwei weitere Tagungen zu #HateSpeech und ihrer 
Erkennung im Projekt #HASeKI: Am 11.11.21 die Fachtagung #!PHSE2 und 
am 12.11.21 die Bürgertagung "KI gegen Online-Hass II"... 
#unihildesheim Mehr Infos hier: uni-hildesheim.de/fb3/institute/ 
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Abb.1 Beispieltweet 


Für die multimodale Analyse von Hate Speech sind vor allem drei Elemente 
hochrelevant, und zwar verlinkte Inhalte (die beispielsweise Straftatbe- 
stände wie Volksverhetzung erfüllen könnten), Emojis und eingebettete Bilder. 
Emojis werden aufgrund ihrer starken visuellen Salienz unmittelbar per- 
zipiert (Beißwenger & Pappert, 2020, S. 100). Eine Funktion von Emojis, die 
im Rahmen von Hate Speech besonders ausgeprägt ist, ist deren Kontextuali- 
sierungsfunktion: 


Mit der Verwendung von Emojis in dieser Funktion wird für die Adressatinnen 
und Adressaten der Kontext konstituiert, vor dessen Hintergrund und unter dessen 
Bedingungen der oder die Verwendende eine sprachliche Äußerung interpretiert 
wissen möchte oder anhand dessen die Einstellung der oder des Verwendenden zu 
einem geäußerten Sachverhalt rekonstruierbar gemacht werden soll, ohne diese 
explizit sprachlich zu formulieren. (Beißwenger & Pappert, 2020, S. 101) 


Folglich haben wir es bei Emojis mit salienten Hinweisen darauf zu tun, wie 
ein Kommentar zu lesen ist. Wie Jaki und De Smedt (2019, S. 20) für rechts- 
extremistische Hate Speech auf Twitter zeigen, besitzen Emojis in Hate Speech 
oft intensivierende Wirkung und weisen insofern auf eine emotionale Beteiligung 
hin, als sie besonders mit expressiven Sprechakten auftreten (16). 
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Abb. 2 Frauenfeindlicher Tweet mit Kontextualisierungsfunktion des Textes 


(16) Wat een walgelijke idioten, mocht er ooit nog een oorlog komen dan hoop 
ik dat de tegenstemmers als eerste doodgaan van de honger. ©©© (dt. , 
Was fiir widerliche Idioten. Sollte es noch jemals einen Krieg geben, hoffe 
ich, dass die, die dagegen stimmen, als erste verhungern‘) 


So stellen Emojis folglich per se noch keine Hate Speech dar, sie sind jedoch 
ein integraler Bestandteil von Hate Speech und eng mit verbalen Elementen ver- 
knüpft. 

Im Gegensatz zu Emojis können eingebundene Bildobjekte durchaus für 
sich gesehen konstitutiv für Hate Speech sein oder Hate Speech entsteht erst 
aus der Interaktion zwischen Text- und Bildanteilen. Besonders Memes spielen 
hier eine tragende Rolle, denn ihr Gebrauch in extremistischer Kommunikation, 
insbesondere in rechtsextremistischen Kreisen, hat stark zugenommen: Wie 
Bogerts und Fielitz (2019, S. 138) betonen, „we can barely understand recent 
far-right cultures without taking into account the diverse messages that memes 
disseminate“. 

Im Folgenden möchte ich illustrierend zwei Fälle anführen, bei denen sich 
Text- und Bildelemente umgekehrt zueinander verhalten (Posttext kontextualisiert 
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Was so alles aus dem #Mittelmeer gefischt wird: Ich 
finde ja, dass die "Neuen Deutschen" ganz nett sind. 
Echte Hoffnungsträger, sozusagen! 


Abb.3 Rassistischer Tweet mit Kontextualisierungsfunktion des Bildes 


Bild vs. Bild kontextualisiert Posttext). In Abb. 2 liegt bei dem eingebetteten 
Meme bereits ein Text-Bild-Verband vor. Der visuelle Anteil allein ist nicht dis- 
kriminierend, sondern bietet nur die Folie für die misogynen Aussagen There is 
only one gender und Women are objects, von denen die zweite überdies eine Ent- 
menschlichung darstellt. Ob dieser Bildverband jedoch eine ernst gemeinte Aus- 
sage darstellt oder eine kritische Distanzierung von Donald Trumps Frauenbild, 
ist ohne den Text des Posts nicht zu entscheiden. Mit / agree jedoch positioniert 
sich der User, liefert somit eine Lesehilfe, und der Tweet kann als frauenfeindlich 
eingestuft werden. 

In Abb. 3 jedoch haben wir es mit einem Text im Post zu tun, der als ironisch 
interpretiert werden muss. Dies suggerieren bereits einige Textelemente (Was so 
alles aus dem #Mittelmeer gefischt wird, die Markierung von Neuen Deutschen 
in Anführungszeichen sowie die ironische Verwendung von echt). Wie abwertend 
die Aussage jedoch wirklich ist, wird durch das eingebettete Foto deutlich, das 
eine Gruppe schwarzer Jugendlicher zeigt. 


30 S. Jaki 


Der Eindruck, den die Jugendlichen auf diesem Bild machen, lässt sich als 
Kontrast zur Attribution nett beschreiben, denn sie wirken insbesondere aufgrund 
der heruntergelassenen Hosen und der Sturmhaube des Jugendlichen rechts im 
Bild unsympathisch und sogar gefährlich. Dass die Rezipierenden des Tweets 
eine (sicherlich intendierte) direkte Verbindung zwischen dem Aussehen auf dem 
Bild und Vorfällen sexualisierter Gewalt herstellen, zeigt sich zum Beispiel darin, 
dass ein User antwortet: Die Hosen haben die Buben sicherheitshalber schon 
runtergelassen. Allzeit bereit... #rapefugees. Durch die Kombination aus Text und 
Bild wird folglich ein komplexes Assoziationsgefüge geschaffen. Eine Recherche 
im Netz zeigt jedoch, dass es sich hier nicht um Geflüchtete handelt, sondern um 
ein älteres Bild von Jugendlichen aus den USA und bei den heruntergelassenen 
Hosen um eine Art Modetrend. Das Bildelement wird folglich verwendet, um 
gezielt Angst vor Geflüchteten zu schüren. 

Die angeführten Beispiele sollen zeigen, dass eine Analyse über den rein 
verbalen Text hinaus nötig ist, um Hate Speech (manuell oder automatisiert) 
identifizieren und umfassend beschreiben zu können. Besonders zwischen Text- 
und Bildelementen können verschiedenste Beziehungen bestehen, die die Hate- 
Speech-Forschung noch eingehend in ihrem Wechselspiel beschreiben muss. 
Zusammenfassend lässt sich folglich feststellen, dass die multimodale Natur von 
Hate Speech noch ein weitgehendes Forschungsdesiderat darstellt, das es in den 
nächsten Jahren systematischer zu schließen gilt. 
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Die Erforschung geschriebener und 
gesprochener Hassrede im Deutschen: 
bisherige Erkenntnisse zu Prosodie und 
Kontext 


Jana Neitsch und Oliver Niebuhr 


1 Zur Einordnung der Hassrede 


In Zeiten einer Krise, wie beispielsweise der globalen COVID-19-Pandemie, 
beobachten und berichten Wissenschaftler*innen weltweit einen Anstieg von 
Hasskommentaren in den sozialen Medien (Forsa, 2021; Landesanstalt fiir 
Medien NRW, 2021). Beispielsweise gaben laut einer aktuellen repräsentativen 
Umfrage unter deutschen Internetnutzer*innen 79 % der Befragten an, dass die 
Kommentare im Netz aggressiver geworden sind bzw. sie Zeuge/Zeugin von 
Hassrede wurden, wobei fast ein Fünftel aller Befragten bereits selbst auch 
Opfer von Hasskommentaren war. Bei den Männern sowie den unter 30-Jährigen 
insgesamt lag dieser Anteil mit bis zu 37 % deutlich höher (Hovel, 2020). Die 
Gründe für den Anstieg sind mannigfaltig, aber Hassrede entsteht oft aufgrund 
von persönlicher Unzufriedenheit, gepaart mit der vermeintlichen Anonymi- 
tät im Internet (Reid-Steere, 2000, S.275) und der Asynchronität in der 
Kommunikation, die es dem Urheber/der Urheberin zusätzlich erleichtert, sich 
von eigenen Äußerungen innerlich zu distanzieren und das „Gegenüber“ weniger 
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stark als Mensch wahrzunehmen. Man spricht in diesem Zusammenhang auch 
vom „Online-Enthemmungseffekt“ (BARMER, 2021), der sich nicht nur gegen 
Individuen, sondern auch gegen ganze Gruppen von Menschen richten kann. Vor 
diesem medienbezogenen Hintergrund ist es nicht überraschend, dass der Neo- 
logismus Hassrede oder hate speech vor allem auch durch Medien geprägt wurde 
(Brown, 2017). 

Neben Hass gegen Individuen oder Gruppen kann Hassrede im Internet als 
gezieltes Mittel der Anstiftung zur Gewalt genutzt werden. Dies ist besonders 
in den vergangenen Jahren deutlich geworden, etwa im Zusammenhang mit 
dem Völkermord an der muslimischen Minderheit der Rohingya in Myanmar 
(BARMER, 2021). Dass Hassrede praktisch gegen jede und jeden gezielt ein- 
gesetzt werden kann, trägt zur Wahrnehmung einer wachsenden Hassrede- 
problematik bei (Mathew etal., 2019; Mondal etal., 2017). Insofern geht die 
wachsende Hassredeproblematik nicht allein auf einen Anstieg entsprechender 
Beleidigungen oder Bedrohungen im Internet zurück, sondern zeugt ebenfalls von 
einer erhöhten Sensibilität für dieses Thema. 

Letztere schließt auch kontroverse Diskussionen mit ein. Diese betreffen 
vor allem das Spannungsfeld zwischen Hassrede als Ausdruck freier 
Meinungsäußerung einerseits und Hassrede als Straftatbestand andererseits, etwa 
in Verbindung mit Volksverhetzung (nach $ 130 StGB) oder Beleidigungen (nach 
$ 185 StGB), bei Verleumdung ($ 187 StGB) sowie Nötigung ($ 240 StGB) oder 
Bedrohung ($ 241 StGB) und bei Aufforderungen zu Straftaten in der Öffentlich- 
keit (§ 111 StGB) (vgl. BARMER, 2021). Solange sich die Definition von Hass- 
rede allerdings als schwierig gestaltet, kann das betreffende Verhalten keinen 
festen, juristischen Begriff abbilden. Tatsächlich manifestiert sich Hassrede in 
den vielfältigsten sprachlichen Formen und Variationen, z. B. als Ironie, figurative 
Sprache oder Imperativ (z. B. Baumgarten et al., 2019; Bick, 2020; Mondal et al., 
2017), und sie tritt zudem mit sehr unterschiedlicher Deutlichkeit auf, was eine 
Identifizierung zusätzlich erschwert. 

Dass Hassrede indes einen enormen Einfluss auf die psychische Gesundheit 
der Opfer haben kann, ist inzwischen als erwiesen anzusehen. Zu den gesundheit- 
lichen Folgen, die von den Opfern in der bislang größten bundesweiten Unter- 
suchung namens #Hass-im-Netz genannt werden (BARMER, 2021), zählen 
Stress, Angst, Selbstwertprobleme, Übelkeit und Depressionen. Besonders unter 
25-Jährige leiden laut dieser Umfrage der BARMER stärker unter den gesund- 
heitlichen Folgen von Hassrede — und Frauen mehr als Männer, obwohl oder 
vielleicht gerade weil letztere Gruppe sowohl häufiger Hassrede ausgesetzt ist als 
auch häufiger für solche Kommentare verantwortlich zu sein scheint, siehe auch 
Bryant und Stephenson (2018). 
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2 Die Rolle der Prosodie in der Hassredeforschung 


Die Vielfalt in Form und Medium ist mit ein Grund dafür, dass Hassrede in den 
vergangenen Jahren verstärkt in den Fokus der Linguistik und damit auch in 
den Fokus der Prosodieforschung gerückt ist. Letztere hat Hassrede „hörbar“ 
gemacht und erlaubt somit einen direkten Vergleich zwischen geschriebener und 
gesprochener bzw. gelesener und gehörter Hassrede (z. B. Neitsch et al., 2021). 
Menschen reagieren sehr sensibel auf die Perzeption von Emotionen in Sprache. 
Dazu zählen auch solche, die in Zusammenhang mit Hass stehen (z. B. Schwartz 
& Pell, 2012). 

Die prosodische Realisierung von Hassrede kann eigenständige Erkenntnisse 
und Charakteristika liefern, die neue Einblicke in die Erforschung von Hass- 
rede geben und damit auch neue Wege der Detektierbarkeit eröffnen können; 
z.B. dahingehend, wie genau Prosodie vor dem Hintergrund der Implicit 
Prosody Hypothesis (Fodor, 2002) die Wahrnehmung von Hassrede beeinflusst. 
Diese Hypothese besagt, dass nicht nur gesprochene Sprache über Prosodie ver- 
fügt (also Intonation, Lautheit, Timing, Timbre, vgl. Arvaniti, 2020), sondern 
dass auch Leser*innen geschriebener Sprache unwillkürlich und immer eine 
bestimmte Prosodie im Kopf haben, sobald sie einen Satz oder Text lesen. 
Selbst in geschriebener Sprache sind es also nicht ausschließlich lexikalische 
Indikatoren, die Hassrede und deren Stärkegrad bestimmten, sondern auch 
prosodische. Ein besseres Verständnis des Zusammenspiels von prosodischen 
Mustern und deren Wirkungen im Hassredekontext kann somit entscheidend 
dazu beitragen, die Reaktionen auf Hassrede zu verstehen und inter-individuelle 
Unterschiede auf Rezipientenseite sowie Diskrepanzen in der Wahrnehmung 
zwischen Urheber*in und Rezipient*in zu erklären, siehe die ersten Schritte dazu 
in Niebuhr (2022). 

Um dies zu verdeutlichen, schauen wir einmal auf den Satz ‚Das hast du wirk- 
lich großartig gemacht!“. Je nachdem, wie dieser Satz (real oder im Kopf der 
Leser*innen) prosodisch klingt, kann er entweder als ehrliches Lob verstanden 
werden, oder aber als Tadel und damit als ironische Äußerung. Ein anderes Bei- 
spiel ist die Frage: „Wer würde Muslime willkommen heißen?“. Die Prosodie 
entscheidet, ob es sich um eine tatsächliche Frage handelt, die durchaus auf die 
Unterstützung der genannten Minderheit abzielen kann, oder um eine rhetorische 
Frage, die keineswegs im Sinne bzw. zum Wohle der genannten Minderheit 
gemeint sein muss. 

Vor diesem Hintergrund umfasste unser von der VELUX-Stiftung finanziertes 
Forschungsprojekt XPEROHS (Towards Balance and Boundaries in Public Dis- 
course: Expressing and Perceiving Online Hate Speech) auch ein Modul über die 


38 J. Neitsch und O. Niebuhr 


vergleichende Analyse geschriebener und gesprochener Hassrede im Deutschen 
und Dänischen (Baumgarten et al., 2019; Bick & Didriksen, 2015). Im Zentrum 
dieses Moduls stand das Herausarbeiten unterschiedlicher Hassredetypen und die 
Einschätzung von deren negativer Wirkung. Im Folgenden konzentrieren wir uns 
auf die Ergebnisse zum Deutschen. 


3 Die Evaluierung geschriebener und gesprochener 
Hassredetypen im Deutschen 


Die hier zusammengefassten, als Teil des XPEROHS Projektes durchgeführten 
Studien basieren auf einem Datenkorpus, das aus geschriebenen Hassrede-Posts 
besteht, die auf den sozialen Medienplattformen von Twitter und Facebook ver- 
öffentlicht wurden. In einem umfassenden Analyseprozess der originalen Posts 
(ORIG)! wurden in zwei Schritten zum einen die häufigsten Hassredetypen und 
zum anderen die häufigsten Zielgruppen identifiziert (siehe Neitsch et al., 2021). 
Als die häufigsten Typen von Hassrede (im Deutschen) kristallisierten sich 
heraus: /ronie (IRO), rhetorische Fragen (RQ), Imperative (IMP), bildliche (d.h. 
figurative) Sprache (FGL), Holocaust-Bezug (HOL) und Indirektheit (IND). Die 
Zielgruppen, gegen die sich die Posts am häufigsten richteten, waren Ausländer 
und Muslime, also zum einen eine sehr allgemeine und zum anderen eine eher 
spezifische Zielgruppe. 

In einem weiteren Schritt wurden für gezielte Untersuchungen aus allen 
ORIG Posts der Datenbank insgesamt 12 ausgewählt, die sowohl von naiven Teil- 
nehmer*innen als auch von einem Panel aus Expert*innen eindeutig als Fälle 
von Hassrede deklariert wurden — je 6 mit der Zielgruppe der Ausländer und der 
Muslime. Aus jedem dieser 12 ORIG Stimuli wurden anschließend alle oben auf- 
gelisteten Typen von Hassrede abgeleitet. Dies geschah auf Basis der im Korpus 
gefundenen charakteristischen Formulierungen des jeweiligen Hassredetyps in 
einer konstanten Prozedur, zumeist durch das Voranstellen oder Anhängen von 
weiteren Äußerungsteilen, wie es nachstehend exemplarisch für die Zielgruppe 
der Muslime dargestellt ist: 


!Im Folgenden werden Abkürzungen bzw. Akronyme herangezogen, die sich bereits in der 
deutsch-dänischen XPEROHS-Forschungsgruppe in englischer Sprache etabliert haben 
und in diesem Beitrag — zum Zwecke der Wiedererkennung und einem Vergleich mit 
unseren bisherigen Arbeiten — so beibehalten werden sollen: ORI/Ginal, IROny, Rhetorical 
Questions, IMPeratives, FiGurative Language, HOLocaust relation, INDirectness. 
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1. Original (ORIG): „Muslime wissen einfach nicht, was wir unter Arbeit ver- 
stehen: das können und wollen die nicht.“ 

2. Ironie (IRO): „Muslime sind ja noch viiiieeel fleißiger als wir Deutschen.“ 
Um Ironie zu erzeugen, wurden die ORIG Stimuli nach dem Muster der 
authentischen Posts in ihr Gegenteil umgewandelt (unterstützt durch die 
Wiederholung von Buchstaben „viiiieeel fleißiger“, vgl. Bick et al., 2021). 

3. Rhetorische Frage (RQ): „Muslime wissen einfach nicht, was wir unter 
Arbeit verstehen: das können und wollen die nicht. Woher sollten die denn 
wissen, was Arbeit ist?“ 

Die rhetorischen Fragen wurden am Ende des jeweiligen ORIG Posts 
angehängt. 

4. Imperative (IMP): „Lasst uns dafür sorgen, dass Muslime endlich kapieren, 
was wir unter Arbeit verstehen! Das können und wollen die nicht.“ 

Imperative wurden durch Phrasen wie „Lasst uns“ am Beginn des ORIG Posts 
ergänzt. 

5. Figurative Sprache (FGL): „Der Muslimdreck weiß einfach nicht, was wir 

unter Arbeit verstehen: das können und wollen die nicht.“ 
Nach dem in der Korpusanalyse gefundenen Muster wurde die jeweilige 
Zielgruppe in einer Nominalkomposition mit einem weiteren Nomen ver- 
schmolzen (z.B. „Muslim“ + „Dreck“ = „Muslimdreck“; vgl. Kleene & 
Geyer, 2021). 

6. Holocaust-Bezug (HOL): „Muslime wissen einfach nicht, was wir unter 
Arbeit verstehen: das können und wollen die nicht. Also steckt sie alle ins 
Ein zusätzlicher Satz, der einen Holocaust-Bezug herstellt, wurde als eigener 
Satz an den ORIG Post angehängt. 

7. Indirektheit (IND): „Ich hab’ ja nichts gegen Muslime, aber sie wissen ein- 
fach nicht, was wir unter Arbeit verstehen: das können und wollen die nicht.“ 
Mit IND bezeichnen wir die verbale Form der persönlichen Distanzierung 
durch einleitende Phrasen wie „Ich habe nichts gegen Muslime/Ausländer, 
aber__“. Dadurch versuchen Urheber*innen das, was folgt (also ihre tat- 
sächliche Meinung) vorab zu entschärfen, was meist in einem Widerspruch 
resultiert (Geyer et al., 2022). 


Der Prozess der Stimulusgenerierung resultierte in insgesamt 84 Stimuli, von 
denen 42 auf Muslime und 42 auf Ausländer als Zielgruppe referierten. Zur 
Untersuchung der gesprochenen Sprache bzw. Prosodie wurden ebendiese 
Stimuli zusätzlich von einem professionellen Sprecher realisiert. 
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weniger inakzeptabe deutlich inakzeptabe 

+ sollte starke + sollte starke 

Konsequenzen haben Konsequenzen haben 

Sollte 


Konsequenzen 
haben 


weniger inakzeptabel deutlich inakzeptabel 


+ sollte schwache + sollte schwache 


Konsequenzen haben Konsequenzen haben 


U è ë~: ë 


Für mich inakzeptabel 


Abb.1 Zweidimensionaler Bewertungsraum (2D Rating Space) von geschriebener bzw. 
gesprochener Hassrede in den Studien von Neitsch und Niebuhr (2019) inter alia 


Die Stimuli wurden in ein webbasiertes Experiment integriert, das Teil- 
nehmer*innen ortsunabhängig am eigenen Laptop durchführen konnten. Alle 
Teilnehmer*innen absolvierten an zwei unterschiedlichen Tagen und mit 
mindestens drei Tagen Abstand zwei experimentelle Listen. Liste 1 umfasste die 
84 geschriebenen und Liste 2 die 84 gesprochenen Stimuli. Die Reihenfolge, in 
der die Listen absolviert wurden, wurde vorab zufällig festgelegt und war über 
die Teilnehmer*innen hinweg ausbalanciert. Demnach erhielten 50 % der Teil- 
nehmer*innen zuerst Liste 1 gefolgt von Liste 2, während es sich bei den anderen 
50 % umgekehrt verhielt. 

Die Instruktion, die vor der Studie schriftlich präsentiert wurde, führte die 
Teilnehmer*innen in die von Neitsch und Niebuhr (2019) entwickelte, zwei- 
dimensionale Bewertungsmethode ein. Durch einen einzigen Mausklick konnten 
die Teilnehmer*innen so jeden Stimulus intuitiv hinsichtlich zweier Dimensionen 
gleichzeitig bewerten: Auf der x-Dimension erfolgte eine Stimulusbewertung 
nach persönlicher Inakzeptabilität und auf der y-Dimension nach der Not- 
wendigkeit für gesetzliche/gesellschaftliche Konsequenzen für den Urheber/die 
Urheberin, siehe Abb. 1. 

In den Ergebnissen dieses Experiments bildete sich eine erste Rangordnung 
im Sinne eines Kontinuums der Hassredetypen heraus. Am unteren Ende — also 
am wenigsten inakzeptabel und mit der geringsten Forderung nach Konsequenzen 
— standen IRO sowie RQ. Am oberen Ende fanden sich die HOL Stimuli, die 
zumeist als ‚deutlich inakzeptabel‘ und ‚sollte starke Konsequenzen haben‘ 
bewertet wurden. Dass Hassrede, die Holocaustbezüge herstellt, bei weitem die 
negativsten und schärfsten Bewertungen auf beiden Achsen erhielt, spiegelt die 
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Sensibilität deutscher Teilnehmer*innen bezüglich Holocaust involvierender 
Hassrede wider (auch deswegen, weil die dänischen Teilnehmer*innen im 
Forschungsprojekt weit weniger intensiv und negativ auf HOL Stimuli reagierten, 
vgl. Neitsch & Niebuhr, 2021). Etwa in der Mitte des Bewertungsraumes standen 
ORIG, IND und FGL; IMP befand sich insgesamt näher an HOL. 

Darüber hinaus gab es klare Unterschiede zwischen beiden Präsentationsmodi 
(geschrieben vs. gesprochen). Einige Hassredetypen waren geschrieben 
inakzeptabler als gesprochen. Für andere Typen verhielt es sich umgekehrt. 
Beispielsweise stellte sich die persönliche Inakzeptanz für gesprochene IMP 
und HOL Stimuli als wesentlich höher heraus als in geschriebener Form. Dies 
legt nahe, dass explizite, hörbare Prosodie bei denjenigen Stimuli, die bereits 
lexikalisch offensichtliche Fälle von Hassrede darstellen, eine zusätzlich 
intensivierende Funktion haben kann. Umgekehrt kamen IRO und RQ Stimuli 
als weniger gravierend in gesprochener als in geschriebener Hassrede heraus; ein 
plausibler Befund, da dies die beiden Stimulustypen sind, bei denen die Prosodie 
entscheidend zur Kennzeichnung des Wortlautes als ironisch bzw. rhetorisch 
beiträgt. Prosodie kann also, wenn sie explizit gehört wird, vermeintliche Hass- 
redestimuli auch abschwächen, ja vielleicht sogar gänzlich in Nicht-Hassrede ver- 
wandeln, wie am Ende dieses Beitrags diskutiert werden wird. 

Zuletzt zeigt diese Studie auch, dass Stimuli, die sich gegen die Zielgruppe der 
Muslime richteten, in beiden Dimensionen signifikant höher bewertet wurden, als 
wenn die Hassrede auf die Zielgruppe der Ausländer im Allgemeinen ausgerichtet 
war. 

In einer Nachfolgeuntersuchung (Neitsch & Niebuhr, 2019, 2020a) wurden die 
Extrempunkte des Spektrums der Hassredetypen hinsichtlich ihrer prosodischen 
Eigenschaften genauer untersucht. Hierbei handelte es sich einerseits um die 
HOL Stimuli, die aus der Sicht persönlicher Inakzeptanz wie auch aus Sicht von 
Konsequenzen für den Urheber/die Urheberin am negativsten bewertet wurden; 
und andererseits um die IRO Stimuli, die diesbezüglich am wenigsten scharf 
bewertet wurden. Beide Typen wurden mit den ORIG Stimuli verglichen, die in 
dieser Untersuchung als Referenzbedingung dienten, siehe die in Abb. 2a-b dar- 
gestellten dreifach-Abstufungen der Stimuli auf beiden Achsen. 

Die Untersuchung der prosodischen Realisierung der drei Hassredetypen 
zeigt, dass höhere Bewertungen auf beiden Achsen typenübergreifend mit tieferen 
Tonhöhenbewegungen, geringerem Sprechtempo und behauchterer bzw. leiserer 
sowie knarrigerer Stimmqualität einhergehen. Ein ruhiger, tiefer, bestimmter 
Tonfall macht Hassredeinterpretationen also schärfer und nicht etwa schwächer. 
Diese prosodische Parameterkonstellation ist auch mit „cold anger“ assoziiert 
(im Vergleich zu „hot anger“, siehe auch Neitsch & Niebuhr, 2020b für den Ver- 
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Abb.2 Normalisierte durchschnittliche Bewertung (in % der Achsenlänge) für HOL, 
IRO und ORIG Stimuli in (a) der x-Dimension (persönliche Inakzeptabilität) und (b) der 
y-Dimension (Konsequenzen für den Urheber/die Urheberin) des 2D-Bewertungsraums; 
editiert entnommen aus Neitsch und Niebuhr (2020a) 


gleich zwischen Deutsch und Dänisch). HOL Stimuli zeigten diese „cold anger“ 
Konstellation in ihrer gesprochenen Form inhärent häufiger als ORIG Stimuli und 
diese wiederum häufiger als IRO Stimuli. 


4 Die Auswirkung von Hassrede auf menschliche 
Biosignale 


Dass die Wirkung von sprachlichem Hass nicht ohne gesundheitliche Folgen bleibt, 
wurde bereits einleitend thematisiert. Wie sich Hassrede aber konkret auf mensch- 
liche Biosignale auswirkt, etwa auf die Atmungs- oder Herzfrequenz, wurde erst 
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kürzlich in einer Untersuchung analysiert (Neitsch & Niebuhr 2020c, d). Die Ergeb- 
nisse zeigen, dass Teilnehmer*innen während des Hörens und Lesens unserer 
obigen Hassredetypen mit einer erhöhten Herz- und Atmungsfrequenz reagieren. 
Zudem nimmt die Schweißbildung und damit die Hautleitfähigkeit an den Fingern 
der Teilnehmer*innen als Reaktion auf Hassredestimuli zu. Die Ergebnisse der 
Biosignal-Messungen legen nahe, dass Menschen während der Perzeption von 
Hassrede unwillkürlich und selbst in Laborsettings verstärkt Stress und negative 
Emotionen empfinden. Besonders deutlich waren diese Reaktionen bei zwei Hass- 
redetypen: IMP und HOL. Diese Befunde stehen insgesamt im Einklang mit den 
oben zusammengefassten Befunden aus dem 2D-Bewertungsraum sowie den 
Umfrageergebnissen der #Hass-im-Netz Studie, in der Stress und Angst als Folgen 
von Hassrede von den Opfern genannt wurden (BARMER, 2021). 

In einem weiteren Schritt wurde die Aktivität in unterschiedlichen Hirnarealen 
während des Hörens bzw. Lesens der unterschiedlichen Hassredetypen gezielt 
mittels Elektroenzephalografie (EEG) untersucht (Neitsch & Niebuhr, 2020d). 
Die Areale, die mit Stress und Emotionen assoziiert sind, zeigten generell eine 
höhere Gehirnaktivität für gesprochene als für geschriebene Stimuli — sowie 
darüber hinaus Unterschiede zwischen den Hassredetypen, die mit den anderen 
gemessenen Biosignalen konform gingen. 


5 Ein detaillierterer Blick auf den Faktor Kontext 


Dass Teilnehmer*innen auf Muslime bezogene Hassredestimuli negativer 
bewerteten als auf Ausländer bezogene Stimuli, zeigt die grundsätzliche Relevanz 
des Faktors Kontext für die Identifikation und Evaluation von Hassredestimuli. 
Aus den Biosignalbefunden geht darüber hinaus hervor, dass unwillkür- 
liche körperliche Reaktionen beispielsweise in ihrer Stärke mit der expliziten 
Bewertung der Hassredestimuli grundsätzlich konform gehen. 

Einen Umstand hatten dabei alle zuvor zusammengefassten Studien 
gemeinsam; einen Umstand, der nicht zwangsläufig repräsentativ für die 
Rezeption von Hassrede im Alltag ist: Die Teilnehmer*innen waren im Rahmen 
des experimentellen Settings allein. Jüngere Studien zeigen indes, dass sowohl 
negative Stressauslöser als auch negative Emotionen durch einen sozialen 
Kontext positiv beeinflusst werden können. In der Studie von Allen et al. (2002) 
wurde beispielsweise die Herzfrequenz gemessen, während Teilnehmer*innen 
Stressauslösern wie starker Kälte (Hand im Eiswasser) und schweren Rechenauf- 
gaben ausgesetzt waren. Die Teilnehmer*innen waren beim Experiment entweder 
allein oder befanden sich in Gesellschaft eines Freundes, Ehepartners oder Haus- 
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tieres. Im Ergebnis zeigte sich ein signifikant geringerer stressbedingter Anstieg 
der Herzrate als Folge der negativen Stressoren, wenn der Teilnehmer bzw. die 
Teilnehmerin in vertrauter Gesellschaft war, insbesondere in der des eigenen 
Haustieres. Die Studien von Sahi et al. (2020) und Morawetz et al. (2021) waren 
der von Allen et al. (2002) in Design und Ziel ähnlich, mit dem Unterschied, dass 
es hierin um die Bewältigung bzw. die Regulation negativer Emotionen ging. Die 
Teilnehmer*innen wurden negativen emotionalen Reizen ausgesetzt, beispiels- 
weise negativen Bildern, während sie entweder allein im Raum oder in Gesell- 
schaft eines Freundes waren. Beide Studien zeigen anhand von Biosignalen 
(£MRD) und expliziten Urteilen, dass die Bewältigung bzw. Regulation negativer 
emotionaler Reize allein signifikant schlechter verlief als in Gesellschaft, wobei 
die Gesellschaft eines guten Freundes einen besonders positiven Einfluss ausübte. 

Ob diese Variable ‚Sozialer Kontext‘, also die „power of social connectedness“ 
in den Worten von Morawetz etal. (2021), auch im Zusammenhang mit der 
Wahrnehmung von Hassrede funktioniert, wollten wir im Rahmen eines neuen 
und daher nachfolgend ausführlicher dargelegten Experiments wissen. Sollten 
sich entsprechende Effekte nachweisen lassen, wäre ein weiterer, auch in puncto 
Alltagsrelevanz wichtiger Kontextfaktor identifiziert und die Schlussfolgerung 
gestärkt, dass linguistische und/oder inhaltliche Merkmale allein für die Identi- 
fikation als auch die Evaluation von Hassrede nicht ausreichen, sondern dass die 
Rezipient*innen bzw. die damit verbundenen kontextuellen Faktoren eine ent- 
scheidende Rolle spielen. 


5.1 Methode 


5.1.1 Teilnehmer*innen 
Insgesamt nahmen 28 Personen am Experiment aktiv teil. Bei allen Teil- 
nehmenden handelte es sich um deutsche Muttersprachler*innen im Alter von 
21-25 Jahren (ø 22,3). Sie wurden aus dem Studierendenpool der Süddänischen 
Universität (SDU) rekrutiert. Besonders in diesem Alter repräsentieren sie die 
Gruppe all derjenigen, die im Netz sehr aktiv sind und dadurch auch mit hoher 
Wahrscheinlichkeit irgendwann Opfer oder Zeuge/Zeugin von Hassrede werden 
(siehe Ergebnis für unter 30-Jährige in Hovel, 2020 sowie Bryant & Stephenson, 
2018). Jeder der Teilnehmer*innen brachte seinen besten Freund bzw. seine 
beste Freundin zum Experiment mit. Insgesamt involvierte das Experiment also 
(2 x 28) 56 Personen bzw. 28 Personenpaare. 

Von den insgesamt 28 aktiven Teilnehmer*innen waren 18 männlich (64,3 %). 
Bei den besten Freund*innen war das Geschlechterverhältnis ausgewogen (50 % 
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bzw. 14 von 28), weil alle 10 Teilnehmerinnen eine beste Freundin, aber nur 14 
der 18 Teilnehmer einen besten Freund mitbrachten. 


5.1.2 Stimuli 

Das hier verwendete Material entspricht den oben beschriebenen (7x 12) 
84 Stimuli. Neben dem Umstand, dass die Wirkung und Subkategorisierung 
dieser Stimuli bereits gut verstanden ist, besteht ein weiterer Vorteil darin, dass 
die Ergebnisse der Referenzbedingung des aktuellen Experiments (allein im 
Raum) mit den Ergebnissen früherer Experimente verglichen werden kann. 
Eine Replikation dieser früheren Ergebnisse würde die auch interne und externe 
Validität der Testbedingung des aktuellen Experiments (mit bestem Freund/bester 
Freundin im Raum) untermauern. 


5.1.3 Datenerhebung 

Die Datenerhebung fand aus zweierlei Gründen mittels Biosignalen statt. Erstens 
zeigten unsere vorangegangenen Studien (Niebuhr & Neitsch, 2020c), dass Bio- 
signale ein mit expliziten Ratings erlangtes Ergebnisbild zu Hassredestimuli 
angemessen abbilden können und dabei gleichzeitig den Vorteil haben, dass 
die Teilnehmer*innen während der Präsentation der Stimuli keine komplexe, 
potentiell mehrdeutige oder unnatürliche Aufgabe erfüllen müssen. Zweitens 
spiegeln Biosignale die unwillkürliche Reaktion der Teilnehmer*innen auf die 
Stimuli wider und verhindern somit, anders als explizite Beurteilungen, dass 
Teilnehmer*innen sozial wünschenswerte Urteile abgeben. Vorangegangene 
Studien enthalten Hinweise auf solche Socially Desirable Responses in Form 
von Abweichungen zwischen expliziten Urteilen und Biosignalen (Neitsch & 
Niebuhr, 2021); z. B. für die IND Stimuli (‚Ich hab’ ja nichts gegen , aber“), 
die in den Biosignalen eine weniger starke negative Reaktion hervorriefen als in 
den expliziten Urteilen. 

Als Quelle der Biosignale wurde die Elektroenzephalografie (EEG) gewählt. 
Die EEG-Signale wurden mittels des MUSE II Headsets gemessen, das über 
Bluetooth mit der dafür entwickelten Softwareanwendung Muse Monitor ver- 
bunden war (Richer et al., 2018). Wie Abb. 3a zeigt, handelt es sich beim MUSE 
II um eine Art Stirnband, in das vier Trockenelektroden eingelassen sind, jeweils 
zwei an der linken und rechten Seite des Frontallappens und des Temporallappens 
(Abb. 3b). Gemäß des Standard-Referenzsystems zur Platzierung von EEG- 
Elektroden über dem Gehirn der Teilnehmer*innen (Klem et al., 1999) erfasst das 
MUSE II Headset die Messpunkte AF7, AF8, TP9 und TP10 (Abb. 3c). 

Die Muse Monitor Software führt auf Basis der aus dem MUSE II Head- 
set ausgelesenen Rohdaten eine Spektralanalyse durch. Sie erlaubt eine Auf- 
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Abb.3 (a) Foto des MUSE II EEG-Headsets; (b) Darstellung von Lage und Funktion des 
Frontallappens im Gehirn in Seitenansicht; (c) Lage der relevanten Messelektroden AF7 
und AF8 im Frontallappen 


schliisselung der Rohdaten an jeder der vier Elektroden in fünf Frequenzbänder: 
Delta (< 4 Hz), Theta (4-7 Hz), Alpha (8-15 Hz), Beta (16-31 Hz) und Gamma 
(> 31 Hz) (siehe Garcia-Moreno et al., 2020). Die Werte werden als Logarithmus 
der spektralen Leistungsdichte (Power Spectral Density) pro Frequenzband in 
dBuV bei einer Abtrastrate von 256 Hz aufgezeichnet. Der Wertebereich der 
gemessenen dBu V-Werte variiert zwischen —1 und+ 1. 

Eine Metastudie von LaRocco et al. (2020) belegt, dass das MUSE IT Head- 
set über eine Vielzahl an Untersuchungen hinweg reliable und präzise Messungen 
geliefert hat, die hochgradig mit verhaltens- oder urteilsbasierten Emotions- und 
Stresszuständen der Teilnehmer*innen korreliert werden konnten (Asif etal., 
2019; Garcia-Moreno et al., 2020; Herman et al., 2021). 

Für die Zwecke des aktuellen Experiments wurde die Datenerhebung auf die 
beiden Frontallappenelektroden AF7 und AF8 beschränkt (siehe Abb. 3b-c), da 
dieser Bereich des Gehirns (mehr als der Temporallappen) mit Aufmerksamkeit, 
Sprache bzw. Sprechen, Emotion bzw. Affekt, Persönlichkeit und moralischem 
wie sozialem Denken in Verbindung steht (Chayer & Freedman, 2001). Mit 
Bezug auf eben diese Zustände und Prozesse konzentriert sich die Datenerhebung 
außerdem auf zwei Frequenzbänder: das Alpha- und das Betaband. Die Frequenz- 
energie in diesen beiden Bändern lässt Rückschlüsse zu sowohl auf das Ausmaß 
der Stressempfindung als auch auf die Empfindung negativer Emotion (Garcia- 
Acosta et al., 2021; Herman et al., 2021; Zhang et al., 2018; Zhao et al., 2018). 

Das Ausmaß der Stressempfindung korreliert direkt mit der beta Frequenz- 
energie (Herman et al., 2021). Hinsichtlich der Emotionsmessungen ist wichtig 
zu berücksichtigen, dass sich eine Emotionsempfindung aus (mindestens) zwei 
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Dimensionen konstituiert: Dem Grad der Erregung, auch als Arousal bezeichnet, 
und der Polarität der Emotion (positiv/negativ), auch als Valenz bezeichnet 
(Garcia-Acosta et al., 2021). Beides lässt sich mittels der AF7- und AF8-Signale 
einschätzen. Den Resultaten früherer Studien folgend, haben wir Arousal in 
Form der beta Frequenzenergie im Verhältnis zur alpha Frequenzenergie (beta/ 
alpha ratio, nachfolgend BAR) bestimmt. Je größer dieser BAR-Wert ausfällt, 
desto höher ist das emotionale Arousal (Garcia-Acosta et al., 2021). Die Valenz 
der Emotion wurde über die sogenannte Frontal Alpha Asymmetry (nachfolgend 
FAA) bestimmt (Garcia-Acosta etal., 2021; Zhang etal., 2018; Zhao etal., 
2018). Der FAA-Wert misst das Verhältnis der alpha Signalenergie zwischen 
der linken Frontallappenelektrode AF7 und der rechten Frontallappenelektrode 
AF8 (AF7/AF8). Je tiefer dieser FAA-Wert unter 1 liegt, desto negativer ist das 
Emotionsempfinden. 


5.1.4 Experimentaufbau 

Die obigen Erläuterungen zusammenfassend umfasst das Experiment drei 
unabhängige Variablen. Die zentrale unabhängige Variable ist die Zwischen- 
subjektvariable Sozialer Kontext. Sie beschreibt, wie das Experiment mit den 
Teilnehmer*innen durchgeführt wurde und hat dabei zwei Ausprägungen: Die 
Referenzbedingung ‚allein‘ und die Testbedingung ‚begleitet‘ (in Gesellschaft des 
besten Freundes bzw. der besten Freundin). 

Daneben gibt es durch die Zusammenstellung der Stimuli zwei Innersubjekt- 
variablen: Stimulustyp (ORIG, FGL, IMP, HOL, IND IRO, und RQ) und 
Stimulusmodus. Das heißt, neben der schriftlichen Variante des Stimulus wurde 
die mündliche Variante mit einbezogen, die, wie oben angesprochen, auf Basis 
der schriftlichen Variante durch einen professionellen Sprecher elizitiert wurde. 
Als männlicher Sprecher kaukasischen Typs im Alter zwischen 35-50 Jahren ver- 
körperte er das typische Profil eines Urhebers von Hassrede (Hrdina, 2016). 

Demgegenüber stehen drei abhängige Variablen: Die auf nV Biosignal- 
Messungen des EEG-Systems MUSE II an den Frontallappenpositionen AF7 und 
AF8 (links, rechts) basierenden Werte der beta Frequenzenergie sowie die aus den 
Rohdaten der Messungen abgeleiteten Werte der BAR- und FAA-Energieverhält- 
nisse. 


5.1.5 Durchführung 

Vor der eigentlichen Durchführung des Experiments wurden die 28 Teil- 
nehmer*innen wie in unseren früheren Studien nach dem Zufallsprinzip einer 
von zwei experimentellen Listen zugewiesen: 50% der Teilnehmer*innen 
begannen mit den gesprochenen Stimuli und durchliefen anschließend die 
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geschriebenen Stimuli. Die anderen 50 % der Teilnehmer*innen begannen mit 
den geschriebenen Stimuli, gefolgt von den gesprochenen. Um Ermüdungs- oder 
Routineartefakten vorzubeugen, durften die Teilnehmer*innen eine 15-minütige 
Pause zwischen den Listen einlegen. 

Das Experiment wurde im Akustiklabor des Centre for Industrial Electronics 
(CIE) an der SDU durchgeführt. Die Teilnehmer*innen saßen in einer schall- 
beruhigten Umgebung vor einem PC-Bildschirm, siehe Abb. 4. Nachdem die 
Teilnehmer*innen durch das Klicken eines Buttons auf dem Bildschirm die 
Kenntnisnahme einer Warnmeldung zur Natur der Stimuli bestätigt und ihr Ein- 
verständnis zur Teilnahme gegeben hatten, gelangten sie zu einer Eingabemaske, 
auf der allgemeine Personendaten zum Zwecke der statistischen Auswertung 
anonymisiert abgefragt wurden. Zuletzt erschien die Information, dass die 
Teilnehmer*innen in diesem Experiment nichts weiter tun müssten, als sich 
konzentriert und so authentisch und natürlich wie möglich den nachfolgenden 
Stimuli auszusetzen, die sowohl schriftlich als auch mündlich präsentiert werden 
würden. 

Hiernach wurden die Teilnehmer*innen gebeten, erst das MUSE II Headset 
einzuschalten und aufzusetzen und danach die ebenfalls bereitgelegten Kopf- 
hörer (Quite Comfort 35 II) aufzusetzen. Die aktive Geräuschunterdrückung 
der Kopfhörer war abgeschaltet. Die Kopfhörer kamen in der Bedingung der 


Abb.4 Schallberuhigte Umgebung des Akustiklabors des CIE an der SDU, in dem das 
Experiment durchgeführt wurde 
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gesprochenen Stimuli zum Einsatz, wurden aber auch in der Bedingung der 
geschriebenen Stimuli noch/schon getragen, um den besonderen akustischen 
Effekt des Kopfhörers als konfundierte Variable des Stimulusmodus im Experi- 
ment zu kontrollieren. 

Im Falle der sozialen Kontextbedingung ‚allein‘ wartete der beste Freund 
bzw. die beste Freundin vor dem Gebäude. In der Bedingung ‚begleitet‘ saß er/ 
sie mit einigem Abstand neben dem Teilnehmer/der Teilnehmerin, jedoch stets 
in dessen/deren Sichtfeld. Der beste Freund bzw. die beste Freundin erhielt die 
Instruktion, während der Dauer des Experiments ein paar absichtlich durch- 
einander gebrachte, längere Kabel auseinander zu sortieren und aufzurollen. 
Diese Aktivität war, unseren Pilottests zufolge, stimmig der Umgebung angepasst 
und gleichermaßen lebendig wie repetitiv, sodass sich der Teilnehmer/die Teil- 
nehmerin stets der Anwesenheit seiner/ihrer Begleitperson gewahr war, ohne 
jedoch durch diese abgelenkt zu werden. 

Die 12 Stimuli jedes Typs wurden blockweise präsentiert, also z.B. erst 
die 12 HOL Stimuli, dann die 12 IRO Stimuli usw. Der Sinn der blockweisen 
Präsentation bestand darin, die Teilnehmer*innen etwa 85-95 Sekunden lang 
durchgehend einem einzigen Stimulustyp auszusetzen. Im Gegensatz zur Dauer 
einzelner Stimuli war dieses Blockintervall lang genug, um signifikante Ver- 
änderungen in den Biosignalen des Teilnehmers bzw. der Teilnehmerin als Folge 
des Stimulustyps hervorrufen zu können. 

Vor den sieben blockweisen Stimuluspräsentationen erhielt der Teilnehmer/ 
die Teilnehmerin die Aufgabe, 30 Sekunden lang gar nichts zu tun. Diese Ruhe- 
phase diente als Null-Stimulus-Referenzbedingung, mit der alle Messwerte 
bzw. Resultate der späteren Stimulusblöcke (d.h. Stimulustypen) verglichen 
werden konnten. Bei einem ordnungsgemäßen Funktionieren der Messungen ist 
zu erwarten, dass die Referenzbedingung (RUHE) signifikant niedrigere Mess- 
werte liefert als alle oder zumindest die meisten anderen Stimulustypen. Noch 
wichtiger wäre, dass sich die RUHE-Werte zwischen den Bedingungen ‚allein‘ 
und ‚begleitet‘ nicht unterscheiden, damit dahingehende Unterschiede während 
der Stimulusrezeption als stress-/emotionsbeeinflussende Effekte des sozialen 
Kontexts interpretiert werden können und nicht als Offset-Effekte zweier ver- 
schiedener Teilnehmer*innengruppen. 

Der Experimentleiter verließ bereits vor der Null-Stimulus-Referenz- 
bedingung den Raum und kam erst nach dem letzten Stimulusblock wieder 
herein, sodass der Teilnehmer/die Teilnehmerin in der ‚allein‘ Bedingung tatsäch- 
lich gänzlich allein war und in der ‚begleitet‘ Bedingung nur den besten Freund/ 
die beste Freundin an seiner/ihrer Seite hatte. 
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Eine komplette Experimentsession dauerte insgesamt ca.40 Minuten, 
bestehend aus zehn Minuten pro Stimulusmodus, einer fünfzehnminütigen Pause 
zwischen den Modi sowie einem kurzen Briefing und De-Briefing am Anfang und 
Ende der Session. 


5.2 Ergebnisse 


5.2.1 Stressempfinden 

Die Messungen zur Betaband-Energie wurden in einem linearen gemischten 
Modell mit Messwiederholung analysiert. Das statistische Modell umfasste 
die beiden Innersubjektfaktoren Stimulustyp und Stimulusmodus sowie den 
Zwischensubjektfaktor Sozialer Kontext. Der Faktor Stimulustyp hatte in diesem 
Modell 8 anstelle von 7 Faktorstufen, weil neben den 7 Typen ORIG, FGL, IND, 
HOL, IMP, IRO, RQ auch die 30-sekündige Ruhephase des Teilnehmers/der Teil- 
nehmerin — die oben genannte Null-Stimulus-Referenzbedingung RUHE — mit 
einbezogen wurde. 

Die Ergebnisse zeigen signifikante Haupteffekte für alle drei Faktoren 
(Stimulustyp: F[7,182]=420,4; p < 0.001, n,=0.942; Stimulusmodus: 
F[1,26]=822,9; p < 0.001, 17, = 0.969; Sozialer Kontext: F[1,26]=201,8; p < 
0.001, n°,=0.886). Daneben gibt es signifikante Interaktionen des Sozialen 
Kontexts sowohl mit Stimulusmodus (F[1,26]= 65,4; p < 0.001, n°, =0.716) als 
auch mit Stimulustyp (F[7,182] =32,5; p < 0.001, 17, = 0.556) sowie eine signi- 
fikante Interaktion zwischen Stimulusmodus und Stimulustyp (F[7,182]=41,1; p 
< 0.001, = 0.613). Die Dreifachinteraktion war nicht signifikant. 

Zur Aufschliisselung der Haupteffekte und deren Interaktionen wurden 
multiple Paarvergleiche (mit Sidak-Korrektur) zwischen den Faktorstufen der 
Inner- und Zwischensubjektfaktoren durchgefiihrt. Das Gesamtbild der Ergeb- 
nisse ist tiberdies in den Abb. 5a—c dargestellt. Als erstes soll herausgestellt 
werden, dass laut der Paarvergleiche des Faktors Stimulustyp die Betaband- 
Energie in der Null-Stimulus-Referenzbedingung RUHE signifikant niedriger 
lag als für alle gelesenen und gehörten Stimulustypen (Abb. 5a). Außerdem gibt 
es zwischen den RUHE-Messungen der beiden sozialen Kontextbedingungen 
‚allein‘ und ‚begleitet‘ keinen signifikanten Unterschied. Damit sind die Grund- 
voraussetzungen für die interne Validität der Daten und die darauf aufbauende 
Ergebnisinterpretation erfüllt. 

Abb. 5a zeigt, dass der Haupteffekt des Sozialen Kontexts darauf beruht, dass 
die Betaband-Energie bei den Teilnehmer*innen über alle Stimuli hinweg in 
der ‚allein‘ Bedingung um durchschnittlich 24 % höher lag als in der ‚begleitet‘ 
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Abb. 5 Mittelwerte der EEG-Messungen für die beta Frequenzenergie (in dBu V über 
AF7&8) über alle 2 x 14 Teilnehmer*innen und Experimentbedingungen (Fehlerbalken 


entsprechen 95 % CI) 
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Bedingung (ø 0.356 dBuV vs. ø 0.272 dBuV). Im Einzelnen variierte dieser 
Prozentwert allerdings stark mit dem Stimulustyp. Für IRO und IND lagen die 
,allein‘-Werte nur um wenige Prozent (allerdings weiterhin signifikant) oberhalb 
der ‚begleitet‘-Werte. Für IMP und HOL sowie für die ORIG Stimuli erhöhten 
sich die Werte hingegen stark von ‚begleitet‘ zu ‚allein‘. Darüber hinaus fiel das 
Niveau der Betaband-Energie für die geschriebenen Stimuli sehr viel höher aus 
als für die gesprochenen Stimuli (Abb. 5b). Generell gilt: Je höher das Niveau 
der Betaband-Energie in der ‚allein‘ Bedingung, desto stärker war die Absenkung 
dieses Energieniveaus durch die Anwesenheit des besten Freundes/der besten 
Freundin. Dies ist die Basis für die Interaktionen des Sozialen Kontexts mit 
Stimulustyp und Stimulusmodus. 

Was den Stimulusmodus betrifft, so geht aus Abb. 5c hervor, dass die Beta- 
band-Energie für die geschriebenen Stimuli im Mittel um 62 % höher lag als 
für die gesprochenen Stimuli (ø 0.388 dBuV vs. ø 0.240 dBuV). Das gilt nicht 
(signifikant) für IND, jedoch umso mehr für IRO, RQ und ORIG, für die die 
absoluten dBuV Unterschiede von gesprochen zu geschrieben um zirka 100 % 
anstiegen. Aus diesem differenzierten Effektauftreten resultiert die oben genannte 
Interaktion zwischen Stimulusmodus und -typ. Bemerkenswert ist, dass die Beta- 
band-Energie in der gesprochenen RQ-Bedingung, also in den Stimuli, in denen 
die rhetorischen Fragen mit entsprechender Prosodie perzipiert werden, auf das 
Niveau der RUHE-Referenzbedingung absank und sich nicht signifikant davon 
unterscheidet. Wenn die IRO Stimuli mit entsprechend gesprochener Prosodie 
präsentiert wurden, ergab sich ein ähnliches Bild. Allerdings ist hier der Unter- 
schied zur RUHE-Bedingung weiterhin signifikant. 


5.2.2 Emotionsempfinden 

Im Rahmen der Emotionsempfindung wurden zwei statistische Modelle 
berechnet. Sie waren vom gleichen Typ wie das zur Betaband-Energie oben. 
Eines der Modelle betraf die BAR-Werte des Arousals und das andere die 
FAA-Werte der Valenz. Das letztgenannte Model wird hier nur kurz in Tab. 1 
zusammengefasst wiedergegeben; einerseits, weil sich keine signifikanten Effekte 
des Sozialen Kontextes gezeigt haben, und andererseits, weil das Gesamtbild der 
Ergebnisse dem gleicht, was aus den Studien zur expliziten Beurteilung der hier 
verwendeten Stimuli (im 2D-Urteilsraum, Abb. 1) bereits bekannt ist. Es sei vor 
diesem Hintergrund nur erwähnt, dass sich für die Stimulustypen ORIG, FGL 
und HOL im Mittel ein Wertebereich zwischen 0,6-0,8 und damit eine klare 
Negativität in der Valenz der Emotionsempfindung ergeben hat. Für die Stimulus- 
typen IRO, RQ und IND galt dies hingegen nicht. Ihr Wertebereich lag zwischen 
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Tab.1 Übersicht über die deskriptive und inferenzstatistische Analyse der mittels 
EEG gemessenen FAA-Werte des Experiments. HE=Haupteffekt, INT= Interaktion, 
n.s. = nicht signifikant 


Soz Ø FAA Wert | Stimulus- Ø FAA Wert | Stimulustyp Ø FAA 
Kontext modus Wert 
allein 0,892 gesprochen | 0,871 RUHE 1,228 
begleitet 0,872 geschrieben | 0,894 ORIG 0,812 
IRO 0,961 
RQ 0,946 
IMP 0,869 
FGL 0,613 
HOL 0,634 
IND 0,995 
Lineares gemischtes Modell mit Messwiederholung für FAA-Werte 
HE Sozialer Kontext n.s. HE Modus n.s. HE Typ F[7,182]=77,2, 
p < 0.001, np*=0,748 
INT Sozialer Kontext x Modus n.s. INT Modus x Typ F[7,182] =77,2, 


p<0.001, np? =0,748 


INT Sozialer Kontext x Typ n.s. 


INT Sozialer Kontext x Modus x Typ n.s. 


0,95 und 1,0 bzw. fiir die gesprochenen Stimuli zum Teil auch deutlich tiber 
1,0 dBLV. 

Das statistische Modell zum Arousal zeigt keine signifikanten Unterschiede 
zwischen den BAR-Werten in der RUHE-Bedingung der beiden Personen- 
gruppen, die die unterschiedlichen sozialen Kontextbedingungen repräsentieren. 
Zudem lagen die BAR-Werte in der RUHE-Bedingung signifikant niedriger als 
für alle gelesenen und gehörten Stimulustypen (Abb. 6a). Der RUHE-Wert lag 
im Mittel unter 1,0, das heißt, die Energie im Alphaband überstieg die im Beta- 
band. Damit sind abermals die Grundvoraussetzungen für die interne Validität der 
Daten und die darauf aufbauende Ergebnisinterpretation erfüllt. 

Das statistische Modell zum Arousal umfasst signifikante Haupteffekte 
für Stimulustyp (FI7,182]= 146,6; p < 0.001, 17, =0.849) und Stimulus- 
modus (F[1,26]=43,1; p < 0.001, n°, = 0.624) sowie fiir den sozialen Kontext 
(F[1,26]= 141,7; p < 0.001, n,=0.845). Daneben gibt es signifikante Inter- 
aktionen des Sozialen Kontexts sowohl mit Stimulusmodus (F[1,26]=6,5; 
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Abb.6 Mittelwerte der EEG-Messungen für BAR (über AF7&8) über alle 2x 14 Teil- 
nehmer*innen und Experimentbedingungen (Fehlerbalken entsprechen 95 % CI) 
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p=0.017, 17, =0.200) als auch mit Stimulustyp (F[7,182]=6,3; p < 0.001, 
17, =0.194) sowie eine signifikante Interaktion zwischen Stimulusmodus und 
Stimulustyp (F[7,182]= 30,8; p < 0.001, 17, = 0.542). Die Dreifachinteraktion 
war nicht signifikant. 

Das Gesamtbild der Ergebnisse ähnelt dem der Betaband-Energie, siehe 
Abb. 6a-c. Allerdings gibt es ein paar nennenswerte Unterschiede. Erstens hatte 
die Anwesenheit des besten Freundes/der besten Freundin zwar wie bei der Beta- 
band-Energie einen positiven Effekt in Form einer Absenkung der BAR-Arousal- 
Werte, allerdings war dieser Effekt mit im Mittel -13 % geringer als im Falle 
der Betaband-Energie (-24 %). Zweitens fiel der Effekt signifikant stärker für 
die gesprochenen (-17 %) als für die geschriebenen Stimuli aus (-9 %). Bei der 
Betaband-Energie war es gerade umgekehrt. Ein weiterer Unterschied besteht 
darin, dass das Niveau der Betaband-Energie für die geschriebenen Stimuli 
durchweg über dem für die gesprochenen Stimuli lag; oder auf vergleichbarem 
Niveau im Falle einiger Stimulustypen. Im Falle der BAR-Arousal-Werte dreht 
sich dieses Verhältnis gerade um. Die gesprochenen Stimuli erzeugten höhere 
Werte als die geschriebenen, mit Ausnahme von IRO und RQ, in denen die 
Prosodie eine entscheidende Rolle spielt für die Interpretation der Stimuli als 
ironisch bzw. rhetorisch fragend. 


5.3 Diskussion 


Wir wollten mit unserem Experiment eine erste, grundsätzliche Antwort auf die 
Frage erhalten, ob die „power of social connectedness“ (Morawetz et al., 2021) 
bzw. der soziale Kontext nicht nur im Rahmen von physischen Schmerzreizen 
(Hände im Eiswasser) oder negativen Bildreizen eine Rolle spielt, sondern auch 
in der Wahrnehmung von Hassrede. Die hierzu erlangten experimentellen Ergeb- 
nisse untermauern dies nachdrücklich. In Begleitung ihres besten Freundes/ihrer 
besten Freundin kamen die Teilnehmer*innen mit den Hassredestimuli signi- 
fikant besser zurecht. Teilnehmer*innen, die den Hassredestimuli allein aus- 
gesetzt waren, zeigten ein um fast ein Viertel (24 %) höheres Stressniveau im 
EEG. Die Intensität des negativen Emotionserlebens (Arousal) erhöhte sich um 
knapp ein Siebtel (13 %). Insgesamt manifestierte sich der Unterschied, Hassrede 
allein oder in Begleitung ausgesetzt zu sein, mehr im Stress- als im Emotions- 
empfinden. 

Was Letzteres anbelangt, legen die EEG-Daten zudem nahe, dass weder der 
soziale Kontext noch das Hassredemedium die Valenz der Emotionsempfindung 
signifikant verändern konnte. Der jeweilige Hassredestimulus wurde demnach 
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immer als gleichermaßen negativ empfunden, ob er nun geschrieben, gesprochen, 
allein oder in Begleitung rezipiert wurde. Die Stärke der Negativität variierte 
einzig in Abhängigkeit vom Stimulustyp. Das dazu entstandene Bild passt zu 
all unseren früheren Biosignal- und Bewertungsergebnissen insofern, als IRO, 
RQ und IND schwächer negativ gewirkt haben als ORIG, FGL, IMP und HOL. 
Über unsere früheren Studien hinaus offenbart das EEG mit FAA-Werten von 
zum Teil > 1,0 dBuV auch, dass insbesondere gesprochene IRO und RQ Stimuli 
nicht durchgängig und von allen Teilnehmer*innen überhaupt als negativ valent 
empfunden wurden. 

Hinsichtlich des Faktors Medium können die aktuellen EEG-Befunde die 
Ergebnisse früherer Studien überdies dahingehend präzisieren, dass gesprochene 
Stimuli gegenüber geschriebenen eine geringere Stressreaktion, dafür aber eine 
intensiver negative Emotionsreaktion auslösen. Obwohl auf den ersten Blick 
unvereinbar, könnte beides mit der Prosodie zu tun haben. In geschriebener Hass- 
rede bleibt die Bedrohung durch die fehlende Prosodie abstrakter und löst so zwar 
mehr Stress bzw. Unsicherheit aber eine geringere negative Emotionsstärke aus. 
In gesprochener Sprache verhält es sich genau umgekehrt, wobei zusätzlich die 
bekannte, verstärkende Wirkung der Prosodie bei ORIG, FGL, IMP und HOL 
hinzukommt. Nachfolgende Studien müssen dem genauer nachgehen. 


6 Zusammenfassung 


Es gibt fraglos eine wachsende Notwendigkeit, sich des Phänomens der Hass- 
rede anzunehmen. Dies gilt nicht allein für die Wirtschaft und Politik. Es gilt 
allem voran auch für die empirische, linguistische und phonetische Forschung, 
deren diesbezügliche Aufgabe darin bestehen muss, den gesellschaftlichen Ent- 
scheidungsträgern Daten, Kriterien und Leitplanken dafür an die Hand zu geben, 
wie Hassrede identifiziert, evaluiert und ggf. sanktioniert werden kann. Vor 
diesem Hintergrund fasste der vorliegende Beitrag die fortlaufenden phonetischen 
Forschungen des XPEROHS Projektes zum Deutschen mit Blick auf zwei 
relevante und vielfach unterschätzte Faktoren zusammen: Prosodie und Kontext. 
Es wurde beschrieben, dass Hassrede selbst kein homogenes Phänomen 
ist. Erstens kristallisieren sich verschiedene Subtypen von Hassrede heraus. 
Zweitens sind diese Subtypen mit jeweils eigenen Prosodien assoziiert. Das 
heißt, obwohl bestimmte prosodische Veränderungen systematisch damit ein- 
herzugehen scheinen, als wie persönlich inakzeptabel und folgenschwer für 
den Urheber/die Urheberin die jeweilige Hassrede bewertet wird (tieftonigeres, 
leiseres, knarrigeres Sprechen verstärkt den Hassredecharakter), gibt es keine 
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eigenständige, spezifische Prosodie der Hassrede. Vielmehr folgt die Prosodie 
stets der zugrundeliegenden kommunikativen Funktion des Hassredetyps. Bei 
rhetorischen Fragen findet sich eine dafür passende Prosodie, und Gleiches gilt 
für Ironie, Imperative usw. Drittens gibt es bemerkenswerte Unterschiede in der 
Bewertung von geschriebener und gesprochener Hassrede. In welcher Weise 
diese Unterschiede wirken, hängt wiederum vom Typ der Hassrede ab. Ein- 
fach gesagt: Typen mit bereits klaren Hassredeindikatoren im Wortlaut (z.B. 
HOL, FGL, IMP) entfalten eine stärkere negative Wirkung, wenn sie laut aus- 
gesprochen und gehört statt nur gelesen werden. Typen, in denen hingegen die 
prosodische Funktion zur Abschwächung des Hassredecharakters beitragen kann, 
z. B. durch das Hinzufügen einer ironischen Note oder einer rhetorischen Frage 
(Neitsch & Marinis, 2020; Niebuhr, 2014), werden in ihren negativen Wirkungen 
abgeschwächt, wenn sie laut ausgesprochen und gehört statt nur gelesen werden. 
In all diesen Zusammenhängen hat sich überdies gezeigt, dass Hassrede, die auf 
klar umrissene, konkrete Zielgruppen bzw. Minderheiten wie Muslime abzielt, 
als negativer empfunden wird als Hassrede, die unspezifischere, allgemeinere 
Zielgruppen wie Ausländer adressiert. Diese Erkenntnisse weisen gleichzeitig 
auch den Weg hin zu gezielteren und damit effektiveren Gegenstrategien in der 
Bekämpfung von Hassrede, z. B. hinsichtlich der Fragen, welche Kommentare im 
Netz für eine Gegenrede ausgewählt werden sollten und welcher Art diese Gegen- 
rede sein müsste. An dieser Stelle können diese möglichen Strategien allerdings 
nicht weiter vertieft werden, da dies den Rahmen unseres Beitrags sprengen 
würde. 

Den beiden Kontextfaktoren Medium (geschrieben vs. gesprochen) und Ziel- 
gruppe (Ausländer vs. Muslime) wurde hier erstmalig — und daher ausführlicher 
beschrieben — ein weiterer Kontextfaktor hinzugefügt: sozialer Kontext. Die 
diesbezügliche Studie bestätigt erneut die Wirkungsweise des Kontextfaktors 
‚Medium‘ und liefert überdies klare experimentelle Belege für die Relevanz des 
sozialen Kontexts. Diese Belege gehen mit Befunden aus Studien zu anderen 
negativen Einflüssen konform und zeigen, allgemein gesagt, dass ein negativer 
Stimulus schwächer ausgeprägte Stress- und Emotionsreaktionen triggert, wenn 
er nicht allein, sondern in Begleitung perzipiert wird, hier in Anwesenheit des 
besten Freundes bzw. der besten Freundin. Der in diesem Sinne positive Effekt 
des Nicht-Alleinseins fällt für die stark negativen Hassredestimuli (FGL, IMP, 
HOL, ORIG) größer aus als für die schwach negativen Stimuli (IRO, RQ, IND). 

Des Weiteren verdichten sich mit Blick auf die gesprochenen RQ- und 
IRO-Versionen — zusammen mit den diesbezüglichen Befunden aus dem 
2D-Bewertungsraum (Abb. 1) — die Hinweise darauf, dass die Prosodie grund- 
sätzlich über das Potential verfügt, Stimuli, die in geschriebener Form als Hass- 
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rede bewertet werden, in gesprochener Sprache in Nicht-Hassrede zu verwandeln. 
Für die IND Stimuli hat sich im Einklang mit früheren Studien hier außerdem 
erneut gezeigt, dass die physiologische Reaktion auf diese Stimuli schwächer 
ausfällt als dies aufgrund ihrer expliziten Bewertungen im 2D-Raum der Abb. 1 
zu erwarten gewesen wäre. In letzteren Bewertungen waren die IND Stimuli 
klar inakzeptabel und lösten einen deutlichen Ruf nach Konsequenzen für den 
Urheber/die Urheberin aus. In den Biosignalen hingegen rangierten die IND 
Stimuli eher auf dem schwachen Reaktionsniveau der IRO und RQ Stimuli. Wie 
schon in Abschn. 5.1.3 vermutet, könnte sich in dieser Diskrepanz der Effekt 
einer Socially Desired Response manifestieren. Das heißt, in den expliziten 
2D-Bewertungen geben die Teilnehmer*innen die vermeintlich gewünschte 
Antwort und verurteilen die IND Stimuli deutlich als Hassrede, wohingegen die 
Biosignale offenbaren, dass dieser Typ von Hassrede (‚Ich hab’ nichts gegen __, 
aber__“) für die Teilnehmer*innen eigentlich in gewissem Grade tolerabel ist. 

Bezüglich Ratschlägen für den Alltag ließe sich aus den zusammengefassten 
und neu gewonnenen Daten zweierlei konstatieren: 1) Potentielle Opfer von 
erwartbaren Hasskommentaren sollten sich diesen nicht allein aussetzen, 
sondern vorher (bekannte) Gesellschaft suchen. 2) Urheber*innen von Hass 
im Netz müssen sich bewusst sein, dass selbst kleine Änderungen in Wortlaut 
ihrer Kommentare eine große (negative) Wirkung entfalten können, dass das 
Lesen von Hasskommentaren Stress und andere negative Reaktionen auslöst 
— selbst bei denjenigen Rezipienten, die gar nicht primär adressiert sind — und 
dass geschriebene Hassrede zum Teil eine negativere Wirkung entfalten kann als 
gesprochene. Wenn man also Dinge nicht laut aussprechen mag, dann sollte das 
im Zweifelsfall umso mehr für ihr Aufschreiben gelten. 

Im Ausblick zeigen diese Ratschläge und Möglichkeiten nur allzu klar, 
wie wichtig es perspektivisch ist, den Faktoren Prosodie und Kontext in 
zukünftigen Studien weiter intensiv nachzugehen. Biosignale bieten sich hier- 
für als experimentelles Instrument besonders an. Sie erfordern keine explizite 
Bewertung der Stimuli oder eine ähnliche metasprachliche Aufgabe von den 
Teilnehmer*innen, liefern dabei gleichzeitig Einblicke in unwillkürliche physio- 
logische Stimulusreaktionen und haben wiederholt durch ein hohes Maß an 
Übereinstimmung mit expliziten Bewertungen ihre externe Validität unter Beweis 
gestellt. Das gilt besonders für EEG-Messungen, aber mit Blick auf Neitsch & 
Niebuhr (2020c) auch für Hautleitwiderstand und Atmung. 

Insbesondere in Relation zu einer Null-Stimulus-Referenzbedingung könnten 
Biosignalanalysen zudem effektiv dafür sein, die Schwelle zwischen Hassrede 
und Nicht-Hassrede für verschiedene Inhalte und Kontextfaktoren zu bestimmen — 
und damit schrittweise endlich eine Hassrededefinition zu abstrahieren, die 
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erstens den Rezipienten ins Zentrum stellt und die zweitens weit über Schlüssel- 
wörter und -phrasen hinausgeht, wie sie derzeit von Wirtschaft und Politik für 
die Identifikation und Evaluation von Hassrede hauptsächlich eingesetzt werden. 
In diesem Zusammenhang sehen wir natürlich die Limitation, dass unsere 
eigenen Studien bislang noch nicht mit den eigentlichen Zielgruppen der Hass- 
redestimuli als Teilnehmer*innen durchgeführt worden sind, also z.B. Aus- 
ländern im Allgemeinen und Muslimen im Besonderen. Hierin — sowie in der 
generellen Ausdifferenzierung des Faktors ‚Rezipient‘ (beispielsweise nach Beruf 
und Geschlecht) — werden die weiteren Schritte unserer Forschung bestehen. 
In diesem Rahmen werden wir auch der impliziten Prosodie in (geschriebener) 
Hassrede und den vermeintlichen Diskrepanzen hierin zwischen Urhebern bzw. 
Urheberinnen und Rezipienten bzw. Rezipientinnen nachgehen. Wenn etwa 
Bedingungen gefunden werden, unter denen Urheber*innen eine weniger hass- 
volle, negative Prosodie beim Verfassen von Hassrede im Kopf haben als auf 
Rezipientenseite beim Lesen entsteht, dann ließe sich auf dieser Basis ein 
gezieltes Sensibilisierungsprogramm gegen Hass im Netz entwickeln. 

Abschließend wirft der zuvor umrissene Ausblick die generelle Frage auf, 
inwieweit Ergebnisse zur Hassrede aus einer experimentellen Situation in die 
reale Lebenssituation von Menschen übertragbar sind. Wir sind optimistisch, was 
diese Frage der Generalisierbarkeit angeht, obwohl wir uns natürlich gerade bei 
der Erforschung kontextueller Faktoren der Hassredewahrnehmung sehr wohl 
des Umstands bewusst sind, dass viele dieser Faktoren aktuell weder identi- 
fiziert noch untersucht sind, insbesondere nicht solche, die ein Experiment von 
der realen Welt unterscheiden. Unser Optimismus ist in der Tatsache begründet, 
dass sich alle hier berichteten Befunde (d. h. Unterschiede und Effekte) stets als 
sehr robust erwiesen haben, obwohl wir Umgebungsbedingungen bislang nicht 
sonderlich streng kontrolliert haben bzw. kontrollieren konnten. Die Bewertung 
der Stimuli im 2D-Urteilsraum etwa fand als Online-Experiment statt und wurde 
von den Teilnehmer*innen in sehr verschiedenen Umfeldern durchgeführt, die 
von der heimischen Couch bis zum Büro am Arbeitsplatz reichten. Die Bio- 
signalerhebungen wurden nicht nur wie im hier berichteten, neuen Experiment 
im Labor der Universität durchgeführt, sondern in vorherigen Experimenten auch 
beim Experimentleiter zuhause, und trotzdem ist ein vergleichbares Ergebnis- 
bild entstanden. Diese Robustheit steht nicht etwa im Widerspruch zur Relevanz 
des Kontextes, sie zeigt lediglich, dass Kontextfaktoren unabhängig voneinander 
untersucht werden können und dass auch die Identifikation relevanter Kontext- 
faktoren für die Hassredewahrnehmung eine weitere bedeutsame Aufgabe für die 
zukünftige Forschung ist. 
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1 Einleitung 


Die sozialen Medien wie Twitter, Facebook und auch die Kommentarspalten der 
Online-Präsenzen von Zeitungen und Radiosendern werden zunehmend von Men- 
schen dominiert, die diffamieren, beleidigen und bedrohen. Automatisch generierte 
Nachrichten werden verwendet, um den Eindruck zu erwecken, dass diese extremen 
Meinungen in der Bevölkerung weit verbreitet sind, aber auch, um politische Gegner 
mundtot zu machen. Infolgedessen gelingt es vielen Betreibern von Social-Media- 
Webseiten nicht mehr, Nutzerbeiträge manuell zu moderieren, und das bedeutet für 
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die Moderator*innen eine enorme psychische Belastung. Daher besteht ein dringen- 
der Bedarf an Methoden zur automatischen Identifizierung verdächtiger Beiträge. 
Erst in den letzten Jahren hat man damit begonnen, Methoden zur automatischen 
Klassifikation von Hatespeech auch auf deutschsprachige Texte anzuwenden. In 
diesem Beitrag stellen wir verschiedene Methoden zur Erkennung deutschsprachi- 
ger agressiver Textbeiträge vor. Grundlage unserer Darstellungen sind die Shared 
Tasks, die in den letzten Jahren zu diesem Thema stattgefunden haben. 

Dabei gehen wir zunächst auf die Besonderheiten der deutschen Sprache ein, die 
es erforderlich machen, die Methoden der Forschungsliteratur für die Analyse von 
Hatespeech, die sich zunächst auf die englische Sprache bezogen haben, zu erweitern 
und zu verfeinern. Danach beschreiben wir eine Methode der Forschung zur Verar- 
beitung von Sprache, mit der Datensätze erzeugt und Forschungsansätze verglichen 
werden, die Shared Task. Anschließend werfen wir einen Blick auf die verfügbaren 
deutschsprachigen Datensätze, die zumeist im Kontext der Shared Tasks entstanden 
sind. Die Methoden zur automatischen Erkennung, die durch die Forschungsgrup- 
pen entwickelt wurden, werden danach kurz erklärt. 


2 Deutschsprachige Hatespeech: Besonderheiten der 
Analyse 


Die automatische Verarbeitung deutscher Sprache bringt einige Besonderheiten und 
Schwierigkeiten mit sich. Die am besten untersuchte Sprache im Natural Language 
Processing (NLP) ist die englische Sprache (Ortmann et al.,2019). Das ist vor allem 
darin begründet, dass Englisch die international am meisten verwendete Sprache ist, 
die nahezu überall — vor allem im wissenschaftlichen Kontext — verstanden wird und 
daher auch weltweit Bestandteil von Untersuchungen ist. Durch die große Verbrei- 
tung gibt es für viele NLP-Aufgaben große englische Datensätze. Deshalb ist es 
notwendig, bei der Abweichung von der englischen Sprache mit einem höheren 
Aufwand geeignete Datensätze in der entsprechenden Sprache zu finden. Eine wei- 
tere Folge der Verbreitung englischer Sprache ist, dass sehr viele Tools und Code- 
Bibliotheken auf die englische Sprache ausgerichtet sind und nicht immer direkt für 
die deutsche Sprache übernommen werden können. Ortmann et al. (2019) haben 
deshalb mehrere Tools für die Verarbeitung deutscher Sprache zusammengetragen 
und einheitlich auf Datensätzen verschiedener Domains evaluiert. Es wurden Tools 
für Satzsegmentierung, Tokenisierung, Part-of-Speech (POS) Tagging, morpholo- 
gische Analyse, Lemmatisierung und Dependency Parsing getestet. 


Automatische Klassifikation offensiver ... 67 


Neben Schwierigkeiten, die auf die geringere Ausbreitung der deutschen Spra- 
che zurückzuführen sind, unterscheiden sich die grundlegenden Strukturen der deut- 
schen von der englischen Sprache in einigen Punkten. Das führt dazu, dass andere 
Verarbeitungsschritte notwendig sind. Ein umfassender Vergleich der beiden Spra- 
chen ist beispielsweise in Hawkins (2015) zu finden. Hier sollen jedoch nur einige 
Besonderheiten herausgegriffen werden, die für das NLP zum Zweck der Erkennung 
von Hatespeech relevant sind. 

Beispielsweise ist es im Englischen meist ausreichend, ein Stemming durch- 
zuführen, wohingegen im Deutschen Lemmatisierung aufgrund einer komplexeren 
Morphologie der Wörter besser geeignet ist. 

Ein weiterer bedeutender Unterschied ist die Kompositabildung im Deutschen. 
Dadurch können lange Wörter entstehen, die jedoch nur sehr selten vorkommen, 
weil Substantive nahezu beliebig kombiniert werden können. Das bereitet Schwie- 
rigkeiten, da selten vorkommene Wörter nur schwer maschinell interpretierbar sind. 
Im Englischen werden dagegen die Wörter in der Regel getrennt geschrieben, z.B. 
bei ,,Kettenreaktion und „chain reaction“. 

Einen Vorteil hat man im Englischen auch bei der Named-Entity Recognition, 
die oft als Schritt zum besseren Textverständnis genutzt wird. Im Gegensatz zum 
Englischen, wo nur Namen groß geschrieben werden, werden im Deutschen alle 
Substantive und Namen groß geschrieben werden. Die Named-Entity Recognition 
kann daher nicht auf die Großschreibung fokussieren wie im Englischen und muss 
andere Methoden einsetzen. 

Für die Detektion von Hatespeech ist die Erkennung von Negationen ein wichti- 
ger Bestandteil. Die Wortstellung in der englischen Sprache ist viel weniger variabel 
als in der deutschen Sprache. Dort fällt auf, dass die Negation eines Wortes nicht im 
nahen Umfeld stehen muss, sondern beispielsweise sogar durch Kommata getrennt 
von diesem stehen kann. Probleme treten insbesondere häufig mit dem Vorkommen 
von „dass“ auf, beispielsweise in dem Satz „Ich denke nicht, dass mir das Spaß 
macht.“ (Siegel & Alexa, 2020). 

Zusammenfassend kann man sagen, dass die automatische Verarbeitung deut- 
scher Sprache einige Schwierigkeiten im Vergleich zum Englischen mit sich bringt. 
Diese sind zum einen darauf zurückzuführen, dass Englisch weiter verbreitet ist 
und zum anderen, dass die deutsche Sprache einige sprachliche Besonderheiten 
aufweist, die dadurch weniger gut erforscht sind als die Besonderheiten der engli- 
schen Sprache. 
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3 Shared Task - eine Methode zur Datenerhebung und 
zum Vergleich von Klassifikationsansätzen 


Im Bereich der Sprachverarbeitung sind sogenannte „Shared Tasks“ ein häufig 
erfolgreich eingesetztes Mittel, um vor allem zu neuen Fragestellungen und zu 
noch nicht untersuchten Sprachen Daten und Ressourcen aufzubauen und Metho- 
den auszuprobieren. Hier sind vor allem die Shared Tasks der „SemEval“-Reihe 
zu nennen, die seit 1998 Wettbewerbe durchführen, die sich mit der Semantik von 
Sprache beschäftigen. Während sich die ersten Shared Tasks der SemEval-Reihe vor 
allem mit lexikalischer Semantik beschäftigten, sind in den letzten Jahren Themen 
wie Sentiment-Analyse, Question-Answering, Wissensextraktion und das Erken- 
nen von Argumentstrukturen vorherrschend. Seit 2019 wird auch die automatische 
Klassifikation von offensiver Sprache in Shared Tasks der SemEval-Reihe unter- 
sucht. ! 

Bei einer Shared Task werden Sprachdaten zunächst gesammelt, dann anno- 
tiert, und anschließend wird der größere Teil der annotierten Daten (meist ca. 80 %) 
als Trainingsdaten öffentlich verfügbar gemacht. Internationale Forschungsgruppen 
entwickeln anhand dieser Trainingsdaten Systeme zur automatischen Klassifikation 
entlang der Annotationen. Die zurückbehaltenen Daten werden ohne Annotation als 
Testdaten diesen Forschungsgruppen gegeben. Die Forschungsgruppen wenden die 
entstandenen Systeme und Modelle auf diese Testdaten an und geben den Organisa- 
toren der Shared Task ihre Ergebnisse (manchmal auch ihre Systeme und Modelle) 
zur Auswertung. Die Auswertung vergleicht die automatischen Klassifikationen 
mit den Annotationen und erstellt eine Rangliste der Systeme. Wichtig dabei ist, 
dass die beteiligten Forschungsgruppen ihre Methoden beschreiben und dann in 
einem Workshop miteinander vergleichen, so zu innovativen Kombinationen und 
erweiterten Sprachressourcen kommen und das Forschungsfeld damit vorantreiben. 

Die Klassifikation von offensiver/aggressiver Sprache ist seit dem Jahr 2018 
Gegenstand von Shared Tasks. In dem Jahr gab es Shared Tasks zu italienischer 
Hassrede in Twitter und Facebook (Bosco et al., 2018), zu italienischer und engli- 
scher Misogynie (Fersini et al.,2018), zur Erkennung von Aggression in Englisch 
und Hindi (Kumar et al., 2018) und auch schon zur automatischen Erkennung offen- 
siver deutscher Sprache (Wiegand et al., 201 8b). Im Jahr 2019 fand eine Neuauflage 
der GermEval mit erweiterten Daten statt (Struss et al.,2019).2 Außerdem fan- 


l (siehe https://semeval.github.io/SemEval2021/tasks.html, https://alt.qcri.org/semeval2020/ 
index.php?id=tasks, https://alt.qcri.org/semeval2019/index.php?id=tasks). 

?Im Jahr 2021 wird die GermEval-Reihe mit neuen Daten fortgeführt: https:// 
germeval202 | toxic.github.io/SharedTask/. 
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Tab. 1 Shared Tasks und Klassifikationsaufgaben 
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Jahr Shared task Subtasks Sprachen 
2018 HaSpeeDe A - binär auf Facebook-Daten Italienisch 
B - binär auf Twitter-Daten 
C - mit beiden Daten-Arten (Cross) 
2018 EVALITA A - Misogyny Identification (binär) Italienisch, Englisch 
B - Misogynistic Behaviour and Target 
Classification 
2018 TRAC A - Overtly aggressive, covertly aggres-| Hindi, Englisch 
sive, non-aggressive 
2018 GermEval A — Offense or other (binär) Deutsch 
B - Profanity, Insult, Abuse 
2019 GermEval A - Offense or other (binär) Deutsch 
B - Profanity, Insult, Abuse 
C - explicit, implicit 
2019 OffensEval A - Binare Klassifikation Englisch 
B — Offense types (Hassrede — Profanity) 
C - Offense target identification (Indivi- 
dual — Group — Other) 
2019 SemEval A -binäre Klassifikation Spanisch, Englisch 
B - Ziel als individuell oder generisch 
2019 HASOC A — binär Deutsch, Hindi, Englisch 
B - Hate Speech, Offensive, Profane 
C - Targeted, Untargeted 
2020 TRAC A - Overtly, Covertly or Non-Aggressive | Bengalisch, Hindi, Englisch 
B - gendered or non-gendered 
2020 OffensEval A — Binäre Klassifikation Arabisch, Dänisch, Englisch, Griechisch, 
B - Offense types (Hassrede — Profanity) | Türkisch 
C - Offense target identification (Indivi- 
dual — Group — Other) 
2020 HaSpeeDe A - binär (Hate or Not) Italienisch 
B - Stereotype Detection 
C - Nominal Utterance Detection 
2020 HASOC A — binär (Hate or Not) Tamil, Malayalam, Hindi, Englisch, 
B - Hate, Profane and Offensive Deutsch 
2021 GermEval A -Binäre Klassifikation Deutsch 
B - Engaging Comment Classification 
(binär, besonders gute und engagierte 
Kommentare) 
C - Fact-Claiming Comment Classifica- 
tion (binär) 
2021 HASOC A - Englisch und Hindi Englisch, Hindi, Dravidian, Arabisch, 


B - Dravidian Languages 
C - Arabic Misogyny Identification 
D - Urdu 


Urdu 
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den 2019 Shared Tasks zur Klassifikation englischer offensiver Sprache (Zampieri 
et al.,2019b), zur mehrsprachigen englisch-spanischen Erkennung von Hassrede 
gegen Immigranten und Frauen (Basile et al.,2019) und zur Klassifikation von Hate- 
speech und offensivem Inhalt in Indo-Europäischen Sprachen (Mandl et al.,2019) 
statt. Im Jahr 2020 wurden die Shared Tasks der Reihen TRAC (Kumar et al., 2020) 
mit zusätzlichen Daten in bengalischer Sprache, OffensEval (Zampieri et al., 2020) 
mit zusätzlichen Daten in Arabisch, Dänisch, Englisch, Griechisch und Türkisch, 
HaSpeeDe (Sanguinetti et al.,2020) mit zusätzlichen Daten einer neuen Domäne 
und HASOC (Mandl et al., 2020) mit zusätzlichen Daten in Tamilisch, Malayalam, 
Hindi, Englisch und Deutsch fortgeführt. HASOC wurde auch 2021 mit neuen Spra- 
chen (Englisch, Hindi, Dravidian, Arabisch, Urdu) durchgeführt, ebenso GermEval 
mit neuen Daten.” 

Alle Shared Tasks haben als grundlegende Aufgabe die binäre Klassifikation 
der Texte als offensiv/aggressiv oder nicht. In den meisten Fällen kommen aber 
weitere Klassifikationen hinzu. Bei der GermEval 2018 war das eine feinere Klas- 
sifikation der offensiven Texte als Abuse, Insult oder Profanity (Ruppenhofer et 
al.,2018). EVALITA 2018 hatte in der Klassifikationsaufgabe für die feinere Klas- 
sifikation sogar fünf Klassen von Misogynie (Fersini et al., 2018). OffensEval 2019 
unterschied in zwei Subtasks die Arten offensiver Sprache in Hassrede und Pro- 
fanity sowie die Ziele von Hassrede in Individuum — Gruppe — Andere (Zampieri 
et al.,2019b). Andere Klassifikationsaufgaben betreffen den Ursprung der Daten 
(Bosco et al.,2018) oder auch die Unterteilung der offensiven Texte in explizite 
oder implizite Aussagen (Struß et al.,2019) (siehe Tab. 1). Die Gestaltung der Auf- 
gaben bestimmt natürlich auch die Annotation der Daten. 

Diese Aktivitäten führten dazu, dass große annotierte Datensätze für verschie- 
dene Sprachen verfügbar sind, darunter auch Datensätze für die deutsche Sprache. 


4 Daten für die Klassifikationsaufgabe 


Eine wesentliche Grundlage für die Entwicklung von Methoden zur automatischen 
Klassifikation sind Datensätze mit annotierten Daten. Diese müssen in ausreichen- 
der Zahl vorhanden und qualitativ hochwertig sein. In diesem Abschnitt beschäftigen 
wir uns daher mit den deutschsprachigen Datensätzen. 


3 http://fire.irsi.res.in/fire/202 1/hasoc, https://germeval202 | toxic.github.io/SharedTask/. 
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4.1 Art der Datensammlung 


Die weitaus häufigste Quelle für Hatespeech-Datensätze ist Twitter. Dies ist vor 
allem auf die gut zugängliche API von Twitter zurückzuführen. GermEval 2018 
und 2019 nutzten Twitter-Daten, GermEval 2021 dagegen die Facebook-Seite einer 
politischen Talkshow. Facebook ist ein weiteres Netzwerk, das zur Datensammlung 
genutzt wird. Die Shared Task TRAC 2020 nutzte YouTube-Kommentare. 

Wenn man einfach alle deutschsprachigen Tweets (oder auch Facebook Posts) 
in einem bestimmten Zeitraum sammeln würde, wäre das Datenset, das dabei her- 
auskommt, äußerst schlecht balanciert: Es wären viel zu wenige Beispiele für Hate- 
speech darin enthalten. Wenn man auf so einem Datenset ein Modell maschinell 
lernen würde, dann würde dieses Modell am besten funktionieren, wenn es immer 
„No Hate“ klassifizieren würde. Die Fehlerrate wäre sehr gering, aber das gelernte 
Modell wäre nicht nutzbar, um Hatespeech zu klassifizieren. Das Problem wird 
ausführlich in Wiegand et al. (2019) beschrieben. Um die Daten zu verdichten, 
haben die Organisator*innen der Shared Tasks verschiedene Methoden entwickelt. 
Diese Methoden führen jedoch häufig zu Daten, die ein verzerrtes Bild liefern (auf 
Englisch „Biased Data“). Wenn man einfach nach Hass-Schlüsselwörtern suchen 
würde, dann macht man es der automatischen Klassifikation extrem leicht, die eben- 
falls wieder nach diesen Schlüsselwörtern suchen muss. Ein solches Modell ist aber 
nicht auf neue Daten und weitere Schlüsselwörter übertragbar. Eine andere Mög- 
lichkeit ist, nach Themen zu suchen, zu denen häufig Hasskommentare gepostet 
werden. Das Problem dabei ist, dass sich diese Themen im Laufe der Zeit verän- 
dern. War es in den Jahren 2018 und 2019 vor allem das Thema „Flüchtlinge“, so 
hat sich das mit dem Aufkommen der Corona-Pandemie verlagert. Bei der Germ- 
Eval 2018 und 2019 war es z.B. so, dass Tweets, die sich auf die Kanzlerin Merkel 
bezogen, vor allem Hassrede waren, sodass die Klassifikatoren falsche Schlüsse 
gezogen hätten. Daher wurden gezielt Tweets der CDU hinzugenommen, die Frau 
Merkel in einen positiven Kontext stellen. Vorsicht ist auch geboten, um zu verhin- 
dern, dass vor allem Hasskommentare von wenigen Autoren verwendet werden, wie 
Wiegand et al. (2019) beschreiben. In dem Fall könnte es passieren, dass sich die 
Klassifikatoren an der Sprache des Autors orientieren und die entstandenen Modelle 
wiederum auf neue Daten nicht anwendbar sind. Bei der GermEval 2018 und 2019 
wurden zunächst mit Schlüsselwörtern, die auf Hass hindeuten, eine große Menge 
von Accounts identifiziert, von denen häufig in offensiver Sprache gepostet wurde. 
Aus diesen Accounts wurde ein Teil der Timeline extrahiert, anschließend wurden 
weitere Posts hinzugezogen, um „Biased Data“ zu vermeiden. Es wurde streng dar- 
auf geachtet, dass Trainings- und Testdaten aus verschiedenen Accounts stammten 
(Struß et al.,2019). Dennoch sind die so entstandenen Daten vor allem aus dem 
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Themengebiet „Flüchtlinge“, das zur Zeit der Datensammlung vorherrschend war. 
HASOC 2020 (Mandl et al.,2020) versuchte einen neuen Weg der Datensamm- 
lung: Aus dem kompletten Archiv von Twitter für Mai 2019 wurden Daten der 
beteiligten Sprachen herausgezogen. Auf den Daten der HASOC 2019 und Ger- 
mEval 2018 wurde ein SVM-Modell trainiert, das einen Fl-Score von etwa 0,5 
hat. Alle Tweets, die damit als Hassrede klassifiziert wurden, wurden ins Datenset 
aufgenommen, zusätzlich 5% der Daten, die nicht als Hassrede klassifiziert wur- 
den. Diese Art der Datensammlung führte zu realistischeren Daten und machte die 
Aufgabe der automatischen Klassifikation extrem schwierig, sodass die Ergebnisse 
deutlich schlechter waren als die auf anderen Datensets. 


4.2 Annotation der Daten 


Die Annotation der Daten ist extrem zeitaufwändig und muss sehr sorgfältig gemacht 
werden, damit die Daten überhaupt für das automatische Training nutzbar sind. Es 
muss entschieden werden, welche Personen die Annotationen durchführen, nach 
welchen Standards annotiert wird und wie viele Personen jeweils einen Tweet bzw. 
Post annotieren. 

Grundsätzlich gibt es drei Möglichkeiten, wer die Daten annotiert (Poletto 
et al.,2020). Im besten Fall werden die Daten von ausgewählten Fachexperten 
annotiert. Das ist aufgrund des hohen Aufwands jedoch nicht immer möglich, 
weshalb Amateure zur Annotation herangezogen werden. Das können wiederum 
ausgewählte Personen sein (z.B. Studierende), deren fachliche Herkunft bekannt 
ist. Die dritte Möglichkeit ist die Nutzung von Crowdsourcing Plattformen, wo die 
konkreten Annotator*innen im Vorfeld nicht bekannt sind. Letztere Methode ist 
aber nützlich, wenn Daten vor allem von vielen Personen annotiert werden sollen, 
um ein breites Bild der Gesellschaft zu erhalten. 

Die GermEval 2018 (Wiegand et al.,2018b) hat zunächst Annotationsrichtlinien 
dafür aufgestellt, ebenso wie andere Shared Tasks es getan haben, z.B. in Zampieri 
et al. (2019a). Die Annotationen wurden zunächst von den drei Organisator*innen 
der Shared Task durchgeführt, nachdem sie sich nach vielen Tests sicher waren, dass 
sie eine gute Annotationsübereinstimmung erreicht hatten. Dann wurde aber jeder 
Tweet nur von einer Person annotiert. Andere Shared Tasks gingen einen anderen 
Weg und ließen die Daten von Personen annotieren, die dafür beauftragt wurden, 
z.B. Studierende, wie HASOC 2020. In dem Fall wurden aber alle Tweets/Posts 
von mehreren Personen annotiert und die Ergebnisse verglichen. 
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4.3 Datenqualität 


Für das Training von Hatespeech-Klassifikatoren werden große Mengen annotierter 
Trainingsdaten benötigt. Die Beschaffung und Annotation dieser Daten ist in der 
Regel von hohem manuellem Aufwand, doch dieser ist am Ende für eine ausrei- 
chende Datenqualität und Datenquantität von zentraler Bedeutung. 

Die Datenqualität (Abb. 1) kann unter drei Aspekten betrachtet werden: Inter- 
pretierbarkeit (Interpretability), Relevanz (Relevancy), Genauigkeit (Accuracy) 
(Kiefer, 2016). Die Interpretierbarkeit beschreibt die Erwartung des Konsumen- 
ten (Maschine/Algorithmus oder Mensch) an die Daten. Es müssen verschiedene 
Ansprüche erfüllt sein, damit die Daten überhaupt verarbeitet werden können. In der 
Detektion von Hatespeech ist beispielsweise zu überlegen, wie mit Texten in Bil- 
dern umgegangen wird, da NLP-Algorithmen nur Text verarbeiten können. Ein Bild 
wäre demzufolge nicht interpretierbar. Die Relevanz gibt an, wie geeignet die Daten 
zum Lösen des konkreten Problems oder der Fragestellung sind. In der Detektion 
von Hatespeech ist unter diesem Punkt die Auswahl der Daten anzusiedeln, d.h. es 
sollte ein gewisser Teil Hatespeech, aber nicht nur Hatespeech enthalten sein und 
es muss beachtet werden, dass der Datensatz keinen Bias enthält. Der dritte Punkt, 
die Genauigkeit, gibt schließlich an, inwieweit die Daten die Realität widerspie- 
geln. Da in der Regel nicht alle existierenden Daten genutzt werden können, weil es 
schlicht deutlich zu viele und nicht alle Daten (öffentlich) verfügbar sind, sollte der 
ausgewählte Datensatz trotzdem probieren, die realen Daten adäquat abzubilden. 


Konsument 
(Maschine, Mensch...) ) 


Interpretierbarkeit 


| Daten | 
Datenqualität 


Relevanz Genauigkeit 
See — ——n 
Lösung des konrekten Repräsentativität der 

Problems Daten 


Abb. 1 Aspekte der Beurteilung von Datenqualität 
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Die bisher genannten Merkmale dienen der Einschätzung der Qualität der Daten 
selbst. Darüber hinaus spielt auch die Qualität der Annotation der Daten zur Nut- 
zung für überwachte Lernverfahren eine wichtige Rolle. Ziel ist immer eine ein- 
heitliche und konsistente Annotation. Dafür sind detaillierte Annotationsrichtlinien 
notwendig, die eine klare Trennung der zu annotierenden Klassen (z. B. Hatespeech 
— Ja/Nein) vorgeben. Die Meinung und Erfahrung des Einzelnen sollten aus techni- 
scher Sicht keine Rolle spielen, da sonst auch das System keine klare Grenze lernen 
kann. In der Realität ist das im Bereich Hatespeech-Detektion ein großes Problem, 
da Hatespeech kaum genau definiert werden kann. Sehr häufig gibt es Grenzfälle, 
die auch durch umfassende Diskussion nicht eindeutig geklärt werden können. Ross 
et al. (2017) haben in ihrem Versuch zur binären Annotation von Hatespeech sogar 
gezeigt, dass das Inter-Annotator-Agreement höher sein kann, wenn keine Defini- 
tion von Hatespeech vorgegeben wird. 

Wie bereits angesprochen, wird in der Praxis häufig das Inter-Annotator- 
Agreement als Maß für die Güte der Annotationen herangezogen: Je größer die 
Übereinstimmung ist, desto besser die Annotationen. Als konkrete Werte dienen 
dabei meist Cohens Kappa oder Fleiss Kappa, bei denen die Übereinstimmung der 
Annotationen von zwei oder mehreren Annotator*innen gemessen werden (Struß et 
al., 2019; Bretschneider & Peters, 2017; Ross et al., 2017). Problematisch ist jedoch, 
dass die Werte nur bedingt vergleichbar sind, weil sie auf unterschiedliche Weisen 
erhoben wurden. In Struß et al. (2019) und Mandl et al. (2019) wurde beispielsweise 
jeweils nur eine geringe Menge Kommentare von mehreren Personen annotiert, um 
den Kappa-Wert zu bestimmen, und der Rest der Kommentare wurde jeweils nur 
noch von einer Person annotiert. Im Gegensatz dazu wurde in Bretschneider und 
Peters (2017) und Ross et al. (2017) der ganze Datensatz von mehreren Personen 
annotiert. Auch die Anzahl der Annotator*innen, über die das Inter-Annotator- 
Agreement berechnet wird, variiert. 

Aufgrund der Probleme bei der Annotation von Daten haben Hanke et al. (2020) 
das Inter-Rater-Agreement-Learning vorgeschlagen, womit insbesondere die Ver- 
lässlichkeit von Annotator*innen bestimmt werden kann. Zur Beurteilung fließen 
zum einen Eigenschaften der Annotatoren ein, wie Vorerfahrung, Expertise im ent- 
sprechenden Gebiet und ggf. themenspezifische Merkmale. Zum anderen werden 
die Dauer der Annotation pro Text und die Konsistenz gemessen. Zur Messung der 
Konsistenz bekommt jede Person einige Texte doppelt zur Annotation, was einen 
Vergleich möglich macht. Werden gleiche Daten von einer Person oft (im Idealfall 
immer) gleich annotiert, deutet das auf eine hohe Konsistenz hin. Der Nutzen der 
Analyse besteht darin, dass die Annotationen der verschiedenen Annotator*innen 
anschließend gewichtet werden können und somit ein verlässlicherer Gold-Standard 
erstellt werden kann. 
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4.4 Datenquantität 


Der Einfluss der Datenquantität — der Menge der vorhandenen Trainingsdaten — auf 
das Klassifikationsergebnis ist schwer einschätzbar. Es ist bekannt, dass klassische 
Machine-Learning-Modelle wie SVM und Naive Bayes in der Regel weniger Trai- 
ningsdaten benötigen als hochkomplexe Deep-Learning-Modelle wie Transformer 
oder Deep Neural Networks (Zampieri et al.,2019b; Kumar et al., 2020). Allerdings 
erreichen letztere bei ausreichender Menge vorhandener Trainingsdaten meist ein 
besseres Klassifikationsergebnis. Es stellt sich daher die Frage, ab welcher Daten- 
menge es sinnvoll ist, Deep-Learning-Modelle zu nutzen und bis zu welcher Menge 
vorhandener Daten klassische Modelle besser funktionieren. Zum aktuellen Zeit- 
punkt ist uns keine Untersuchung bekannt, die das Problem umfassend untersucht. 
In engem Zusammenhang mit dem Problem steht die Abschätzung der nötigen 
Trainingsdatenmenge (Sample Size Determination) (Figueroa et al.,2012), jedoch 
ist uns auch dabei noch kein Vergleich zwischen Deep-Learning und klassischen 
Modellen bekannt. Eine Analyse fiir SVM und Naive Bayes haben beispielsweise 
Riekert et al. (2021) vorgenommen. Doch obwohl einige Analysen in dieser Rich- 
tung existieren, sind Vergleiche zwischen diesen kaum möglich, weil sich die Ergeb- 
nisse je nach Domain, den konkreten Modellen, Daten und verwendeten Features 
unterscheiden. 

Auch in dieser Hinsicht können Shared Tasks eine hilfreiche Möglichkeit sein, 
einen Eindruck zu bekommen, inwieweit die Menge der Trainingsdaten die Ergeb- 
nisse beeinflusst. Insbesondere die Ergebnisse der GermEval 2018 (Wiegand et 
al.,2018b) und der GermEval 2019 (Struß et al.,2019) können gut verglichen wer- 
den, weil 2019 der Trainingsdatensatz von 2018 um 7526 Kommentare (3994 neue 
Kommentare plus 3532 Testdaten von 2018) erweitert wurde. Die Ergebnisse haben 
gezeigt, dass sich trotz der mehr als doppelt so großen Trainingsdatenmenge der 
beste Fl-Score nur um 0,0018 und damit unwesentlich verbessert hat (von 0,7677 
auf 0,7695). Eine geringe Verbesserung (+0,0380) hat sich im Median der F1-Scores 
abgezeichnet, was vermutlich daran lag, dass 2019 schon bekannt war, welche 
Modelle 2018 gut funktioniert haben. Neben klassischen Modellen, die 2018 domi- 
nierten, wurden 2019 auch Transfomer-Modelle eingereicht. Jedoch konnten auch 
damit keine deutlichen Verbesserungen erzielt werden. 


4.5 Deutschsprachige Datensätze 


Eine Übersicht über verfügbare deutschsprachige Datensätze gibt Tab. 2. Der größte 
Datensatz ist der der GermEval Shared Task 2019 (Struß et al.,2019). Dieser 
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beinhaltet manuell annotierte Twitter-Kommentare. Für die Shared Task wurde 
der Datensatz der GermEval Shared Task 2018 erweitert. Insgesamt beinhaltet 
der Datensatz damit 15,567 Kommentare, die einerseits binär mit den Klassen 
OFFENSE oder OTHER und andererseits nach einer feineren Klassifikation mit 
ABUSE, INSULT und PROFANITY für die Klasse OFFENSE annotiert sind. Dar- 
tiber hinaus gab es bei der GermEval 2019 eine Subtask zur Klassifikation der 
offensiven Tweets in explizit oder implizit. Dafiir wurden Trainings- und Testda- 
ten mit einem Gesamtumfang von 2888 annotierten Kommentaren zur Verfiigung 
gestellt. 

Beim GermEval Shared Task 2021 stand wie schon in vorherigen Jahren die Ana- 
lyse von Kommentaren in sozialen Netzwerken im Vordergrund. Dafiir wurde ein 
4188 Kommentare umfassender Datensatz mit Kommentaren vom Facebookauftritt 
einer deutschen Talkshow von den Organisatoren bereitgestellt (Risch et al., 2021). 
Die Daten stammen aus dem Jahr 2019. Entsprechend der drei Subtasks wurde 
die Toxizität der Kommentare annotiert, ob ein Kommentar positiv zur Diskussion 
beiträgt (Engaging Comment Classification) und ob Kommentare Tatsachenbehaup- 
tungen enthalten (Fact-Claiming Comment Classification). Alle drei Annotationen 
sind binär. 

Ein weiterer rund 5600 Facebook- und Twitterkommentare enthaltender Daten- 
satz wurde von Bretschneider und Peters (2017) mit dem Ziel der Detektion von 
Hass gegen Ausländer erstellt. Dabei wurden Kommentare von drei ausländerfeind- 
lichen Gruppen auf Facebook analysiert. Annotiert wurden jeweils, ob ein Kommen- 
tar Hatespeech enthält und wenn ja, wie ausgeprägt die Hatespeech ist (moderate 
oder clearly). Durch letztere Einschätzung können Grenzfälle von eindeutiger Hate- 
speech unterschieden werden. Darüber hinaus wurde das jeweilige Ziel der Hate- 
speech einer von sechs Gruppen (Targets) zugeordnet, sofern der Kommentar ein 
Target identifiziert. Die annotierten Gruppen sind u. a. Ausländer, Politiker, Medien 
und die Facebook-Community. 

2019 wurde für die HASOC Shared Task ein Datensatz mit 4669 deutschspra- 
chigen Kommentaren erstellt und annotiert (Mandl et al.,2019). Dabei gab es wie 
bei der GermEval Shared Task eine binäre Grobklassifizierung in Offensive und 
Non-Offensive und eine Feinklassifizierung in Hate, Offensive oder Profane. Mit 
der Feinklassifizierung wurden nur Kommentare klassifiziert, die in der Grobklassi- 
fizierung der Klasse Offensive zugeordnet wurden. Neben deutschen Kommentaren 
wurden für diese Shared Task auch annotierte Datensätze in Englisch und Hindi 
zur Verfügung gestellt, wodurch ein Vergleich zwischen verschiedenen Sprachen 
ermöglicht werden sollte. 

Von Ross et al. (2017) wurde ein kleiner 470 Twitter-Kommentare umfassender 
Datensatz erstellt. Hierbei stand nicht das Training von Hatespeech-Klassifikatoren 
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im Vordergrund, sondern die Messung der Verlässlichkeit von Hatespeech- 
Annotationen unter Vorgabe unterschiedlicher Annotationsrichtlinien. Für die 
Erstellung des Goldstandards wurde jeder Kommentar von zwei Personen anno- 
tiert. Dabei wurde zunächst binär klassifiziert (Hatespeech oder nicht Hatespeech) 
und anschließend wurde die Stärke der Hatespeech auf einer Skala von 1 bis 6 
bewertet. 


5 Klassifikationsmethoden und Ergebnisse der 
Shared Tasks 


In der Analyse natürlicher Sprache werden Methoden des maschinellen Lernens 
eingesetzt. Beim maschinellen Lernen von Klassifikationen geht es darum, aus 
Textdaten Modelle abzuleiten, mit denen neue Textdaten klassifiziert werden. Die 
Methoden lassen sich grob in überwachtes Lernen (Supervised Learning) und 
unüberwachtes Lernen (Unsupervised Learning) unterscheiden. Beim Supervised 
Learning stehen Dokumente zum Training zur Verfügung, die manuell klassifiziert 
sind, wie die Datensätze, die wir im Abschn. 4.5 beschrieben haben. Weil für das 
Supervised Learning große Mengen annotierter Daten benötigt werden, hat man 
nach Methoden gesucht, die mit Daten ohne Annotationen arbeiten. Auf der Basis 
von Daten, aber ohne Annotationen arbeitet daher das Unsupervised Learning. In 
den letzten Jahren kamen die Transformer als Verfahren dazu. Dabei werden die 
Textdaten mithilfe von Word Embeddings in numerische Vektoren überführt, wobei 
der Wortkontext berücksichtigt wird. Dieser Schritt fällt unter das Unsupervised 
Learning, denn er benötigt keine Annotationen. Anschließend kann mit einer klei- 
neren Menge annotierter Daten das ,,Finetuning“ durchgeführt werden. 


5.1 Supervised Learning 


Eine Möglichkeit des Supervised Learnings ist das Lernen auf Merkmalen (Featu- 
res). Dazu werden die Aspekte des Texts benannt, die einen Einfluss auf die Ent- 
scheidung haben könnten. Das können Wörter aus vorgegebenen Wortlisten sein, die 
im Text vorkommen, aber auch die Verwendung von Emojis, Satzzeichen, syntak- 
tische Kategorien, Groß- und Kleinschreibung, Sentiment und andere. Die Aspekte 
werden als numerische Daten kodiert, also z.B. die Anzahl der Hasswörter im Text 
oder die Anzahl der Ausrufezeichen. Auch Metadaten wie Zeitangaben oder Auto- 
renschaft können - falls vorhanden - als Features verwendet werden. Die Textdaten 
werden automatisch mit diesen Aspekten angereichert, sodass jeder Text als nume- 
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Tab. 2 Übersicht annotierter deutschsprachiger Datensätze 


Anzahl 


Datensatz Annotationen 


Bretschneider und Facebook 


Peters (2017) 


Grob: Hatespeech — 
Ja/Nein 
Ausprägung: 
moderate/clearly 
Twitter 470 Hatespeech — 
Ja/Nein 

Stärke: Skala 1-6 
Twitter 15,567 Grob: Offense, Other 
Fein: Abuse, Insult, 
Profanity 

Twitter 2888 Implizit, Explizit 
Twitter, 4669 Grob: Offensive, Not 
Facebook Offensive 

Fein: Hate, 
Offensive, Profane 
Facebook 4188 Toxic/Not toxic 
Engaging Comments 
Fact-Claiming 
Comments 


Ross et al. (2017) 


GermEval 2018 und 
2019 


HASOC 2019 


GermEval 2021 


risches Datum vorliegt. Es wird dann berechnet, welchen Einfluss welcher Aspekt 
auf die Klassifikation hat und damit ein Modell aufgebaut. 

Eine andere Möglichkeit sind Wortlisten und andere lexikalische Methoden. 
Dazu zählen unter anderem Bag-of-words (BOW), N-Grams, Lemmatisierung und 
Stemming. Eine Hate-Wortliste enthält beispielsweise Wörter, die auf Hass schlie- 
Ben lassen. Diese Wortlisten entstehen auf unterschiedliche Arten, wobei sie häufig 
aus mehreren Projekten kompiliert werden. BOW funktioniert ähnlich, erstellt eine 
solche Liste jedoch automatisch aus den Trainingsdaten, indem die Wörter in den 
verschiedenen Klassen miteinander verglichen werden (Alrehili, 2019). Um heraus- 
zufinden, welche Wörter in einem Text besondere Bedeutung haben, kann die Term 
Frequency-Inverse Document Frequency (TF-IDF) verwendet werden. 

In einigen Fällen werden sogenannte „N-Grams“ verwendet. Anstelle von Wör- 
tern beim BOW treten bei N-Grams Ketten von Wörtern oder von Zeichen. N-Grams 
auf Wortebene sind Ketten von N (meist zwei oder drei) Wörtern, N-Grams auf Zei- 
chenebene sind Ketten von N Zeichen (Buchstaben, Satzzeichen, Leerzeichen etc.). 
Das maschinelle Lernen lernt dabei die Häufigkeit des Vorkommens der N-Grams 
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in den einzelnen Klassen. N-Grams werden laut einer Studie von Alrehili (2019) am 
häufigsten genutzt. Diese können direkt als Features verwendet werden, wie zum 
Beispiel in Roy et al. (2020) oder Wiegand et al. (2018a). 

Mithilfe von Part-of-Speech (POS) Tagging kann bestimmt werden, welcher 
syntaktischen Kategorie ein Wort angehört. Kombiniert man beispielsweise POS 
Tagging mit N-Grams, so lassen sich Rückschlüsse auf Wortart-Kombinationen 
schließen. 

Zu den klassischen Machine-Learning-Methoden zählen unter anderem Support 
Vector Machines (SVM), Logistic Regression (LR), Random Forest (RF), Naive 
Bayes (NB), Decision Trees (DT), Gradient Boosting (GB) und k-nearest-neighbour 
(KNN). Roy et al. (2020) untersuchen verschiedene Methoden bei der Erkennung 
von Hatespeech und kommen zum Schluss, dass keine der angewandten Metho- 
den konsistent besser als andere ist. Abhängig von den verwendeten Features (hier 
verschiedene N-Grams), erreichten sie mit RF, SVM oder KNN die besten Ergeb- 
nisse. Auffällig ist jedoch, dass die Fl-Werte bei diesen Experimenten für „Nicht 
Hatespeech“ bei etwa 0,97 lagen, „Hatespeech“ dagegen bei gerade einmal 0,54 im 
besten Fall. Dies bedeutet, dass noch immer etwa die Hälfte aller „Hatespeech“- 
Daten falsch klassifiziert wurden. Die Autoren betonen jedoch die Unausgewogen- 
heit der Datensätze (über 90 % der Daten waren „Nicht Hatespeech“), sodass nicht 
automatisch darauf geschlossen werden kann, dass die Methoden ungeeignet für 
bessere Klassifikationen von „Hatespeech“ sind. 

Auch Kumar Sharma et al. (2018) erreichen mit SVM, RF, LR und GB Accuracy- 
Werte zwischen gerade einmal 0,523 (SVM) und 0,545 (RF). Durch das Trainieren 
mit zusätzlichen Features ist es Wiegand et al. (2018a) jedoch gelungen, deutlich 
höhere Werte zu erreichen. 


5.2 Unsupervised Learning 


Neben den überwachten Lernmethoden gibt es auch das unüberwachte Lernen 
(Unsupervised Learning). Dabei wird ein Modell auf nicht-annotierten Daten trai- 
niert. Die zu lernenden Aspekte sind nicht in den Daten gekennzeichnet und der 
Lernalgorithmus versucht, Muster zu erkennen. Der wichtigste Vorteil davon ist, 
dass der Annotationsschritt wegfällt und damit potenziell mit weniger Aufwand 
größere Datenmengen verfügbar sind. Ein weitere Vorteil ist, dass das Modell auch 
Unterschiede lernen kann, die nicht in einem Feature für jedes Einzelbeispiel extra- 
hiert worden sind. Der Nachteil ist jedoch, dass hierdurch die Erklärbarkeit der 
Ergebnisse erschwert wird. Im Vergleich zum überwachten Lernen werden für das 


80 C.Demus et al. 


unüberwachte Lernen auch größere Datenmengen benötigt, um gute Ergebnisse 
erzielen zu können. 

Zur Erkennung von Hatespeech mit Deep-Learning-Modellen werden die Text- 
daten in numerische Vektoren überführt. Hierzu verwendet man sogenannte „Word 
Embeddings“. In diesen Vektoren ist für jedes Wort kodiert, mit welchen anderen 
Wörtern es im Kontext (mit welcher Wahrscheinlichkeit) auftreten kann. Es wird 
dabei der Kontext rechts wie auch links betrachtet. Dadurch kann man semantische 
Zusammenhänge zwischen Wörtern in den Trainingsdaten erkennen: Semantisch 
ähnliche Wörter, die in ähnlichen Kontexten auftreten, und semantisch zusammen- 
hängende Wörter, die häufig gemeinsam auftreten. 

Zu den bekanntesten Word Embeddings gehören word2vec, FastText,* Google 
Embeddings? und GloVe Embeddings.° Es ist jedoch auch möglich, durch die Deep- 
Learning-Modelle selbst Word Embeddings zu erstellen, deren Gewichtung in den 
einzelnen Trainingsdurchgängen trainiert und angepasst werden. 

Die populärsten Deep-Learning-Verfahren im Bereich der Erkennung von Hate- 
speech basieren auf Convolutional Neural Networks (CNN), Gated Recurrent 
Units (GRU), Long-Short-Term-Memory (LSTM) und Recurrent Neural Networks 
(RNN). Bei der GermEval 2018 gab es viele Einreichungen mit LSTM (11), CNN 
(10) und GRU (6) (Wiegand et al.,2018b), ein Jahr später dagegen gab es keine Ein- 
reichungen mit Deep-Learning-Verfahren mehr (Struß et al.,2019). CNN können 
Beziehungen zwischen den benachbarten Wörtern gut erkennen, LSTM dagegen 
können längere Abhängigkeiten zwischen den Wörtern erkennen. Badjatiya et al. 
(2017) haben herausgefunden, dass Deep-Learning-Verfahren signifikant bessere 
Ergebnisse erreichen als klassische Machine-Learning-Verfahren. Laut einer Studie 
von Istaiteh et al. (2020) erreichen LSTM signifikant bessere Ergebnisse als CNN, 
jedoch kommen Badjatiya et al. (2017) zum gegenteiligen Ergebnis, dass CNN bes- 
ser als LSTM performen. Die höchsten F1-Werte konnten jedoch mit LSTM, Word 
Embeddings mit zufälligen Startgewichten und Gradient Boosted Decision Trees 
(GBDT) erreicht werden (0,93). Das Verwenden von FastText-Embeddings oder 
GloVe-Embeddings hat nicht zu besseren Ergebnissen geführt. Dies kann daran 
liegen, dass diese vortrainierten Word Embeddings möglicherweise Wörter nicht 
enthalten, die im jeweiligen Kontext von Bedeutung sind, wie beispielsweise „Isla- 
molunatic“ (Pitsilis et al.,2018). 

Ebenfalls gute Ergebnisse konnte Roy et al. (2020) mit einem Deep Convolutio- 
nal Neural Network (DCNN) in Kombination mit einer Methode zur Adaption des 


4 https://fasttext.cc/docs/en/english-vectors.html. 
5 https://mecormickml.com/2016/04/12/googles-pretrained- word2vec-model-in-python/. 
6 https://nlp.stanford.edu/projects/glove/. 
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Modells auf ungesehene Daten, „K-Fold Cross-Validation“, erreichen (F1 = 0,92). 
Laut der Autoren ist eine K-Fold Cross-Validation bei unausgewogenen Datensät- 
zen hochgradig performant. Bei einer K-Fold Cross-Validation wird der Datensatz 
in eine bestimmte Anzahl (K) Teile unterteilt. Ein Teil wird als Testset und ein ande- 
rer Teil als Validationsset deklariert. Die restlichen Teile werden als Trainingssets 
verwendet. Diese Aufteilung wird so oft wiederholt, bis alle möglichen Varianten 
durchgegangen sind. 


5.3 Transformer-Modelle 


Eine neue Entwicklung in der Sprachverarbeitung wurde durch sogenannte Trans- 
former Modelle vorangetrieben. Diese unterscheiden sich von klassischen neuro- 
nalen Netzen dadurch, dass sie den sogenannten „Attention-Mechanismus“ ver- 
wenden. Der Attention-Mechanismus speichert die relevanteste Information eines 
verarbeiteten Satzes. Dadurch ist es möglich, die Kontextabhängigkeiten von Wör- 
tern auch über Satzgrenzen hinweg während des Trainings zu speichern (Vaswani et 
al.,2017). Das hat auch dazu geführt, dass bidirektionale Sprachenmodelle verwen- 
det werden können, die die Sätze nicht mehr nur von einer Richtung lesen, sondern 
von beiden Richtungen aus gleichzeitig. Eines dieser Modelle ist BERT (Bidirec- 
tional Encoder Representations from Transformers), welches in der ursprünglichen 
Version auf englischen Daten trainiert wurde (Devlin et al.,2019). 

Solche Modelle werden auf einer großen Anzahl von generischen Daten (also 
Texten) vortrainiert und können damit für beliebige Arten von NLP-Aufgaben- 
stellungen, wie Question Answering, Klassifikation, Named Entity Recognition 
u.a. verwendet werden (Devlin et al., 2019). Wenn vortrainierte Modelle auf spezi- 
fischen Daten weiter trainiert werden, wird dies auch „Fine-Tuning“ genannt. Dies 
führt dazu, dass sehr gute Vorhersagen bei Klassifikationen mit kleinen Datensätzen 
erreicht werden können. Mittlerweile gibt es vortrainierte monolinguale Transfor- 
mer (Devlin et al.,2019; Liu et al.,2019) in vielen verschiedenen Sprachen oder 
auch als multilinguale Varianten (Conneau et al.,2019), die über 100 Sprachen 
beherrschen. 

Dieser Ansatz wurde auch im Bereich der automatischen Erkennung von Hates- 
peech eingesetzt. Madukwe et al. (2020) haben verschiedene Experimente mit BERT 
und zwei Hatespeech-Datensätzen durchgeführt, um herauszufinden, welche Layer 
des Modells am Besten zur Klassifikation geeignet sind. Das beste Ergebnis hatte 
der Embedding Layer. Auch D’Sa et al. (2020) haben sich mit der Klassifikation 
von englischsprachiger Hatespeech, offensiver und toxischer Sprache befasst. Dabei 
vergleichen sie ein neuronales Netz mit FastText und BERT Embeddings und dem 
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klassischen Fine-Tuning von BERT. Bei allen Experimenten erzielt das Fine-Tuning 
mit Abstand die besten F1-Werte (0,97 F1). Aber auch bei der GermEval 2019 — die 
sich mit deutscher Sprache befasst hat — wurde BERT eingesetzt. Das Team bertZH 
(Graf & Salini, 2019) hat hierbei ein auf Deutsch vortrainiertes BERT-Modell als 
auch ein multilinguales verwendet, wobei die finale Fl-Werte zwischen 0,43 und 
maximal 0,53 lagen. Ähnlich — für spanische und englische Tweet-Klassifikation — 
haben Stappen et al. (2020) ein eigenes Modell AXEL entwickelt und mit BERT und 
XLM (Conneau & Lample, 2019) verglichen. Safı Samghabadi et al. (2020) haben 
sich hingegen nur auf Misogynie und Aggressionserkennung (je drei Klassen) in 
Englisch, Hindi und Bengalisch fokussiert, welche auch als Sub-Kategorien bzw. 
Spezifizierungen im Bereich von Hatespeech sind. Als Modell wurde eine Kom- 
bination aus BERT, einem extra Attention- und Klassifikations-Layer verwendet, 
welches bei der Erkennung von Aggressionen einen Fl-Wert von über 0,7 und bei 
Misogynie abhängig von der Sprache zwischen 0,8 bis über 0,92 erreichte (Safi 
Samghabadi et al.,2020). Mozafari et al. (2020) erforschten Rassismus in Hates- 
peech — mit Fokus auf Modelle, die Rassismus auf Basis der verwendeten Wörter 
einer sozialen Gruppe beim Training lernen. Dazu wurden mehrere Datensätze und 
Varianten von BERT getestet, wobei die Fl-Werte auf die Testdaten zwischen 0,75 
und 0,94 variierten. 

Zudem wurde auch eine Studie zu Hatespeech (Florio et al., 2020) publiziert, die 
sich mit dem Vergleich von einer SVM und einem Transformer-Modell befasst hat. 
Dort wurde untersucht, wie viel Einfluss eine größere Datenmenge mit unterschied- 
lichen Zeitfenstern bei der Extraktion der Daten auf die jeweiligen Modelle haben. 
Das Ergebnis war, dass — durch die schnelle Veränderung der Themen in sozialen 
Netzwerken — Daten, die zeitlich näher beieinander liegen, die Klassifikationser- 
gebnisse verbessern können, aber mehr Daten generell die Modelle weniger robust 
machen (Florio et al., 2020). 


5.4 Methoden in den Shared Tasks 


Bei den Methoden, die die Forschungsgruppen anwendeten, um die Klassifikati- 
onsaufgaben zu lösen, ist eine Entwicklung zu beobachten: Die Methodenvielfalt 
ist über den Zeitraum von zwei Jahren gesunken, zugunsten von neuronalen Netzen 
und auf BERT basierenden Transformern. 
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2018 wurden vor allem klassische Verfahren des maschinellen Lernens (ML) 
wie Support-Vector-Machines (SVM) eingesetzt, gefolgt von neuronalen Netzen 
(LSTM, RNN, CNN, BiLSTM, GRU) und lexikalischen Methoden wie TF-IDF, 
Bag-of-Words, Lexikon-Ressourcen für Hassrede und Sentiment, N-Grams und 
Word Embeddings. Die Gewinner-Systeme nutzten klassisches ML (SVM), lexi- 
kalische Methoden(TF-IDF) und neuronale Netze(LSTM, BiLSTM). 

2019 wurden die klassischen ML-Verfahren nur noch selten eingesetzt, dafür 
mehr die neuronalen Netze. Die ersten Transformer-Modelle (BERT und ELMo) 
wurden zu den Wettbewerben eingereicht. Die Gewinner-Gruppen nutzten BERT, 
aber auch SVM. 

Im Jahr 2020 schließlich nutzten die meisten Systeme Varianten der BERT- 
Transformer. Auf diesen basierten auch die Gewinner-Systeme, wobei in einem 
Fall ein neuronales Netz (BiLSTM) dazu kam. 

Die F1-Werte der Gewinner-Systeme haben sich zwischen 2018 und 2019 nicht 
verbessert. Struß et al. (2019) stellen dies für die GermEval-Serie ebenfalls fest: 
„Compared to the previous year, this year’s winning F-score is higher, but very 
slightly so (76,95 vs. 76,77).“ Die Werte liegen 2018 zwischen 0,64 und 0,84 und 
2019 zwischen 0,73 und 0,83. Im Jahr 2020 gab es zwei Besonderheiten: Der maxi- 
male Fl-Wert, der bei HASOC erreicht wurde, lag lediglich bei 0,53. Mandl et al. 
(2020) führen das auf die neuartige Art der Datensammlung, aus der ein realis- 
tischeres Datenset entstanden ist, zurück. In der OffensEval konnte 2020 für die 
englische Sprache ein Fl-Wert von 0,92 erreicht werden, indem das Transformer- 
Modell ALBERT genutzt wurde (Zampieri et al.,2019b). 


6 Zusammenfassung und Ausblick 


In diesem Kapitel haben wir uns mit Methoden zur automatischen Klassifikation von 
deutschsprachiger Hatespeech beschäftigt. Wir haben dargestellt, wie die Metho- 
den, die für die Klassifikation englischer Sprache entwickelt worden sind, für die 
Verarbeitung deutscher Sprache angepasst werden müssen. Anhand einer Unter- 
suchung von Shared Tasks zur automatischen Klassifikation von Hatespeech der 
letzten Jahre haben wir vielversprechende Methoden identifiziert und einen Trend 
von Standard-Machine-Learning-Methoden hin zu Transformer-Methoden festge- 
stellt, wobei die Standard-Machine-Learning-Methoden nach wie vor ihre Berech- 
tigung haben. Die meisten Forschungsgruppen beschäftigen sich jedoch ausschließ- 
lich mit binären Klassifikationen, wo schon recht gute Ergebnisse erzielt werden. 
Es wird sich in Zukunft zeigen, ob komplexere Klassifikationen (z.B. Art der Hate- 
speech, strafrechtliche Relevanz) andere Methoden benötigen. Da Daten eine wich- 
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tige Grundlage für Modelle zur Klassifikation sind, haben wir den öffentlich zugäng- 
lichen Datensätzen zur deutschsprachigen Hatespeech einen Abschnitt gewidmet. 
Die Datensätze stammen zumeist aus Twitter oder Facebook. Noch gibt es relativ 
wenige Datensätze für die deutsche Sprache. Durch die wachsende Zahl an Shared 
Tasks in dem Themenbereich ist jedoch zu erwarten, dass weitere Datensätze ent- 
stehen. Anschließend haben wir die Funktionsweise der wichtigsten aktuell einge- 
setzten Klassifikationsmethoden kurz dargestellt. Ein wichtiges Thema der nächsten 
Zeit wird die Erklärbarkeit der automatischen Klassifikationen sein, die vor allem 
im Kontext der Hatespeech-Klassifikation relevant ist. In diesem Bereich erwarten 
wir weitere Arbeiten in der nächsten Zeit, denn gerade im untersuchten Themenbe- 
reich können sich Anwender nicht mit Black-Box-Systemen zufrieden geben, deren 
Entscheidungen nicht nachvollziehbar sind. 
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Hate Speech behandeln: 
Diagnosewerkzeuge aus der 
Computerlinguistik 


Johannes Schafer 


1 Einführung 


Hate Speech ist beim Konsum von sozialen Medien mittlerweile allgegenwärtig. 
Die hohe Geschwindigkeit, mit der Millionen Nutzer:innen neue Nachrichten pro- 
duzieren, hat zur Folge, dass diese nicht manuell gesichtet werden können, bevor sie 
öffentlich zugänglich als Einträge für alle sichtbar werden (so berichtet @raffi, 2013 
zum Beispiel von 500 Mio. eingehenden Tweets pro Tag). Dadurch ist es leicht mög- 
lich, dass problematische Inhalte, insbesondere hier auch Hassbotschaften, schein- 
bar ungehindert verbreitet werden können. Dies hat auch seinen Ursprung im gene- 
rellen Aufbau der Kommunikation online. Hier gibt es für verschiedene Bedürfnisse 
von Nutzer:innen vielfältige Angebote, die im Rahmen der technischen Möglich- 
keiten diverse Kommunikationskanäle öffnen. 

Das Problem Hate Speech lässt sich zusätzlich besser verstehen, wenn man den 
Unterschied in der Kommunikation online im Vergleich zum Erstellen von Äuße- 
rungen offline betrachtet. So könnte man zum Beispiel das Verfassen von Beiträgen 
in einem sozialen Netzwerk dem Schreiben von Leserbriefen in einem Nachrich- 
tenmagazin gegenüberstellen. Hier hat die Kommunikation online zunächst nur die 
Voraussetzung, dass, sofern bei Nutzer:innen die technische Ausrüstung vorhan- 
den ist, ein Nutzerkonto erstellt wurde, welches je nach Plattform jedoch auch teils 
mit unüberprüften Falschangaben versehen werden kann oder gar von vornherein 
weitestgehend anonymisiert gehalten ist. Das Anschreiben eines Nachrichtenma- 
gazins scheint erheblich aufwändiger und persönlicher, wobei typischerweise vor 
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dem Erscheinen eines Leserbriefs noch eine Überprüfung des Inhalts stattfindet. Bei 
sozialen Medien hingegen gibt es meist keine Redaktion, die Nachrichten sichtet, 
bevor sie veröffentlicht werden. Hier bleibt es üblicherweise anderen Nutzer:innen 
überlassen, unpassende Inhalte zu melden, wodurch zunächst nur die Betreiber der 
Plattform auf diese aufmerksam gemacht werden. 

Fortschritte in der Kommunikation online scheinen daher gesellschaftlichen 
Regeln des Miteinanders zu widersprechen. Beschäftigt man sich gezielt mit dem 
Phänomen Hate Speech, möchte man meinen, sich in einer Pandemie zu befin- 
den, in der Hass wie ein Virus verbreitet wird, um eigene Agenden zu verfolgen. 
Soziale Medien machen es dem Populismus leicht, schnell viele Menschen ohne 
großen Aufwand zu erreichen, wie Engesser et al. (2017) zeigen. Nichts eint dabei 
so sehr wie die gemeinsame Ablehnung, bis hin zum Hass, gewisser Denkweisen, 
Personen(-gruppen) oder Dinge. 

Eine Regulierung des Inhalts, dargestellt auf öffentlichen Webseiten, ist unab- 
dingbar. So sind auch die Betreiber von Plattformen der sozialen Medien in der 
Verantwortung, da sie den Inhalt, der von Nutzer:innen erstellt wird, für jedermann 
zugänglich machen; diese Verantwortlichkeit besteht auch nach der Erstveröffentli- 
chung fort (Gillespie, 2018). Eine weiterführende Diskussion der Regulierungspro- 
blematik geben Schünemann und Steiger in diesem Band. Es gilt jedenfalls, geeig- 
nete Methoden einzusetzen, um den richtigen Grad einer möglichst unbeschränkten 
Kommunikation mit all den technischen Möglichkeiten des Internets zu ermögli- 
chen, gleichzeitig jedoch mit den gesellschaftlichen — zum Teil auch gesetzlichen — 
Vorschriften und Regeln konform zu bleiben. 

An dieser Stelle kommt die Computerlinguistik ins Spiel, welche Methoden 
zur vorrangig automatischen Verarbeitung von sprachlichem Material erforscht. 
Das Phänomen Hate Speech findet sich in Nachrichten in sozialen Medien, wel- 
che man als sprachliche Äußerungen beschreiben kann, meist geäußert in Form 
von Text, jedoch manchmal auch multimodal (wie es beispielsweise Kiela et al., 
2020 oder De Smedt & Jaki, 2018 untersuchen). Hier ist nun speziell die Analyse 
und Erkennung von relevanten Nachrichten gefragt, in Anwendungen für Betreiber, 
Autor:innen und Konsument:innen von sozialen Medien. 

Am wichtigsten sind wohl die Anwendungen für Konsument:innen: aus gesell- 
schaftspolitischer Sicht zum Schutz der Bevölkerung vor illegalem Inhalt und zur 
Verhinderung von dessen Weiterverbreitung. Hierbei geht es also um eine Regulie- 
rung des Konversationsstils und -inhalts. In manchen Fällen mag es auch ausreichen, 
Leser:innen eine Warnung anzuzeigen, zum Beispiel bei Behauptungen mit man- 
gelnden Fakten, also möglichen Falschnachrichten. Forschungen dazu präsentieren 
beispielsweise Shu et al. (2017) und Hardalov et al. (2016). 
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Anwendungen für Betreiber betreffen primär das Blockieren von inakzeptablem 
Inhalt, worunter auch Hate Speech fällt. Dies ist motiviert durch gesetzliche Vor- 
schriften, kann aber auch nach eigenen Regeln der Betreiber erfolgen. Ein Beispiel 
für so eine plattformspezifische Content-Regulierung sind Produktbewertungen auf 
Amazon, bei denen es nicht erlaubt ist, die Qualität der Lieferung miteinzubezie- 
hen. Versuchen Nutzer:innen trotzdem in seiner Rezension darüber zu schreiben, 
kann es dazu kommen, dass eine Warnmeldung erscheint, dass der Kommentar nicht 
akzeptiert werden kann. Dahinter steckt ein automatisches (computerlinguistisches) 
System, welches den Inhalt von Nachrichten bezüglich der Plattformrichtlinien ana- 
lysiert. 

Das obige Beispiel kann auch als eine Anwendung für Autor:innen verstanden 
werden, wobei diese Kategorie in der Praxis selten integriert ist. Eine Anwendung 
für (die Interaktion mit) Autor:innen würde über eine Rechtschreibkorrektur, welche 
mittlerweile weit verbreitet angeboten wird, hinausgehen und gezielte automatische 
Analysen auch zur Bedeutung des Inhalts von Nachrichten einschließen. Bei Grenz- 
fällen zu Hate Speech wären Warnungen denkbar, dass Nachrichten zum Beispiel 
falsch verstanden werden könnten, doppeldeutige oder eventuell in einem Kontext 
verletzende Begriffe beinhalten könnten. Damit könnten Nutzer:innen in der Rolle 
von Autor:innen auf ein mögliches Fehlverhalten hingewiesen werden. Bei Fällen 
von Hate Speech stellt sich allerdings die Frage, ob deren Autor:innen sich dessen 
nicht sowieso meist bewusst sind, was die Wirkung eines Warnsystems in Frage 
stellt. 

Im Fokus, sowohl bei der Nachfrage nach Anwendungen als auch in der com- 
puterlinguistischen Forschung zu Hate Speech, sind sicherlich Methoden zu deren 
automatischer Erkennung. Einen Überblick zu dieser Problematik geben Schmidt 
und Wiegand (2017). In diesem Anwendungsfall geht es für ein System darum, für 
jede gegebene Nachricht zu entscheiden, ob sie als Hate Speech kategorisiert wer- 
den könnte, oder ob sie komplett aus unkritischem Inhalt besteht. Dabei besteht eine 
große Schwierigkeit darin, präzise vorab zu definieren, wie diese Entscheidung zu 
treffen ist. In diesem Artikel möchte ich dieses Definitionsproblem allerdings nicht 
tiefer diskutieren, da dies nicht eine speziell computerlinguistische Aufgabe ist, 
sondern interdisziplinär beantwortet werden muss. Ich möchte jedoch auf einige 
geeignete computerlinguistische Methoden hinweisen, die bei der Erforschung die- 
ses Problems Anwendung finden. In Abb. 1 ist eine thematische Unterteilung der 
Erkennung von Hate Speech in der Computerlinguistik dargestellt. 

Das übliche Vorgehen gestaltet sich so, dass im Rahmen von Projekten eine 
ungefähre Definition von Hate Speech vorgegeben wird, gegebenenfalls erklärt mit 
Hilfe von ein paar wenigen Beispielen. Im nächsten Schritt ist es die Aufgabe von 
mehreren Annotator:innen, eine größere Menge von empirisch gesammelten Daten 
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Abb. 1 Computerlinguistische Ressourcen und Prozesse bei der Erkennung von Hate Speech. 
Als Ressourcen sind hier dargestellt: die sozialen Medien links oben, das Wissen oder Vor- 
stellungen über das Phänomen Hate Speech rechts oben, ein maschinelles Erkennungssystem 
unten und ein Datensatz mit Textbeispielen im Zentrum. Zu deren Verbindung sind vier Pro- 
zesse gekennzeichnet: (1) Die Extraktion von Hate-Speech-Beispieldaten aus den sozialen 
Medien, bei der die menschliche Vorstellung vom Phänomen auch eine Rolle spielt, wie ich 
weiterführend in Abschn. 2 diskutiere. (2) Die manuelle Annotation von Daten, bei der das 
Wissen über das Phänomen dem Datensatz explizit angereichert wird (auch dazu mehr in 
Abschn. 2). (3) Das Training des Erkennungssystems mit einem annotierten Datensatz. Hier- 
bei istes das Ziel, das System auf Aufgaben vorzubereiten, die es bei (4), der Anwendung auf 
neue Daten, ausführen soll. Dazu betrachte ich in Abschn. 3 mögliche Aufgaben im Detail und 
gebe in Abschn. 4 einen Überblick zu grundlegenden Methoden der Erkennung. Im Idealfall 
erhält man ein System, das die menschliche Vorstellung des Phänomens nachbildet, was in 
der Grafik mit einer gepunkteten Verbindung angedeutet ist 


anhand der Definition zu annotieren. Das bedeutet, für jede einzelne Nachricht 
ist zu entscheiden, in welche Kategorie sie nach der Definition einzuordnen wäre. 
Schwierigkeiten bei der unvoreingenommenen Sammlung von Daten, die möglichst 
alle verschiedenartigen Vorkommen von Hate Speech gleichmäßig abdecken sollte, 
beleuchte ich detaillierter in Abschn. 2. Zum Erstellen solcher Ressourcen berichtet 
auch Mandl in diesem Band. Die teils auf subjektiven Interpretationen basierenden 
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Entscheidungen der Einzelpersonen können dadurch relativiert werden, dass die 
Markierungen mehrerer Annotator:innen vereint werden. Zusätzlich handelt es sich 
im Idealfall um eine so große Menge an Daten, dass einzelne Falschentscheidungen 
nicht schwer ins Gewicht fallen. Bei diesem Prozess werden diverse, computerge- 
stützte Werkzeuge zur manuellen Annotation von Texten eingesetzt, die den Pro- 
zess beschleunigen und vereinfachen; zum Beispiel gibt es hierfür die Werkzeuge 
Webanno (de Castilho et al., 2016) oder BRAT (Stenetorp et al., 2012). Als Ergebnis 
entsteht ein Goldstandard von manuell annotierten Texten, wobei eine bestmögliche 
menschliche Einschätzung angestrebt wird, welche nur zu einem geringen Grad feh- 
lerhaft und inkonsistent sein soll. Automatische Systeme werden nun üblicherweise 
mit solchen Daten optimiert und auch evaluiert. Dabei wird eine der menschlichen 
Einschätzung entsprechende Leistung als obere Grenze für die Erkennungsrate von 
Systemen angenommen. 

Im folgenden Abschnitt (Abschn.2) möchte ich zunächst aus eigener For- 
schung zur empirischen Datensammlung für das Phänomen Hate Speech berichten 
und dabei auf weiter bestehende Probleme hinweisen. Für den darauf folgenden 
Abschnitt sehe ich es als gegeben an, dass von Menschen entschieden werden kann, 
welche Nachrichten als Hate Speech gelten und welche nicht. Aufgaben für com- 
puterlinguistische Werkzeuge stellen sich nun anhand dieser Eingabe. In Abschn. 3 
diskutiere ich diverse Arten von Aufgaben für die Computerlinguistik zur Analyse 
von Hate Speech, die in der Forschung unterschiedlich prominent untersucht wer- 
den. Daran anschließend gebe ich in Abschn. 4 einen Überblick über grundlegende 
Methoden zur automatischen Erkennung von Hate Speech. Ich schließe in Abschn. 5 
mit einem Ausblick, in dem ich zusammenfasse und diskutiere, welche Fragen für 
die zukünftige Forschung offen bleiben. 


2 Empirische Datensammlung 


Das Ziel einer Sammlung von Daten für das Phänomen Hate Speech formuliere 
ich hier so, dass es gilt, eine möglichst große und zum Phänomen passende Menge 
an Beispielen in einem Datensatz zu vereinen. Dabei bietet sich eine empirische 
Methodik an, also eine Sammlung von real existierenden, geäußerten Beiträgen von 
verschiedenen Autor:innen, um ein möglichst realitätsnahes Abbild des Phänomens 
zu erzielen. Eine Vorgabe von Beispielen aus sich heraus im Stil von „Armchair“- 
Linguist:innen würde für das komplexe Phänomen Hate Speech sicherlich nicht 
genügen, da es hier darum gehen soll, die gesamte Varietät des Phänomens abzu- 
decken, das von verschiedenen Nutzer:innen in öffentlich zugänglichen sozialen 
Medien verbreitet wird. In der Forschung werden auch synthetisch erstellte Daten- 
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sätze verwendet, zum Beispiel zur Evaluierung von Systemen, wie der Datensatz 
HatemojiCheck von Kirk et al. (2021). Solche sind jedoch für eine grundlegende 
Phänomenerfassung ungeeignet. Angestrebt werden sollte hier also eine möglichst 
unvoreingenommene Sammlung von Beispielen, bei der unter anderem auch auf die 
Varietät im Bezug auf die Autor:innen von Nachrichten, thematische Bezüge und 
anderen sprachlichen Realisierungen des Phänomens geachtet werden sollte. Als 
Resultat soll ein in seiner Struktur konsistentes Sprachkorpus entstehen, welches 
automatisch weiterverarbeitet werden kann für aufbauende Analysen. 

Den Zielen gegenüber stehen diverse Möglichkeiten, Grenzen beziehungsweise 
Einschränkungen, die die Online-Welt mit sich bringt. So muss bei der Wahl der 
Plattformen, die als Quellen für eine Datensammlung dienen sollen, miteinbezo- 
gen werden, inwiefern diese eine automatische Sammlung ermöglicht. Diese wird 
oft durch Filtermöglichkeiten unterstützt, welche beispielsweise eine Suche nach 
bestimmten Begriffen zulässt. Eine zufällige Sammlung von Beiträgen ist für das 
Phänomen Hate Speech unzureichend, da dieses an der Gesamtmenge von erstellten 
Beiträgen gemessen relativ selten ist und damit einen unrealistisch hohen manuel- 
len Aufwand zur Beispielsuche erfordern würde. Daher muss abgewogen werden, 
inwiefern die automatische Suche durch die Wahl bestimmter Filter eingeschränkt 
werden kann. Einerseits sollte durch einen auf das Phänomen passenden Filter der 
Nachbearbeitungsaufwand reduziert werden, andererseits trotzdem eine möglichst 
hohe Diversität des Phänomens durchgelassen werden. Bei der Datensammlung 
müssen außerdem Rechte von Autor:innen betrachtet werden, im Bezug auf den 
Schutz der Daten von Nutzer:innen, welche als Metadaten im Korpus gespeichert 
werden können, und auch auf den Kopierschutz der Beiträge an sich. Dies spielt 
in der Forschung insbesondere für die freie Weiterveröffentlichung der Daten eine 
Rolle, denn hier soll ein Ziel sein, das Wissen, welches bei der Datensammlung 
und einer eventuell anschließenden Annotation in das Korpus fließt, anderen For- 
scher:innen weiterzugeben. Auch entscheidend für die Auswahl von Quellen ist der 
Aufwand für eine manuelle Weiterverarbeitung oder Annotation, weshalb meist der 
Fokus auf Kurznachrichten liegt. 

Eine manuelle Annotation stellt den üblicherweise durchgeführten, ersten syste- 
matischen Schritt zur Analyse von empirisch gesammelten Daten dar. Dieser Schritt 
der manuellen Durchsicht ist hier meist notwendig, da, je nach Methode der Samm- 
lung, nur ein ungewisser Teil der gesammelten Daten wirklich dem Phänomen zuzu- 
schreiben ist. Auf jeden Fall gilt es, dies festzustellen, wobei der übrige Teil der 
Daten als Gegenbeispiele weiterverwendet werden kann. Für die manuelle Annota- 
tion von Äußerungen bezüglich Hate Speech stellt sich nun zunächst die Frage, was 
genau in den Daten annotiert werden soll. Hierzu ist eine Phänomendefinition nötig, 
die entweder vage sein kann, um die eigenen Vorstellungen der Annotator:innen zu 
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nutzen, oder möglichst präzise vorgegeben wird, um eine einheitliche Annotation 
zu erzielen. Ein Beispiel solcher Annotationsrichtlinien präsentieren Ruppenhofer 
et al. (2018). In Annotationsexperimenten, bei denen mehrere Annotator:innen die 
selben Äußerungen annotieren, kann zudem eine Auswertung der Annotation erfol- 
gen. Dadurch können Aussagen getroffen werden über die Qualität der Annotation, 
aber auch bezüglich der Schwierigkeit der Aufgabe für menschliche Entscheider, 
woraus man oft eine obere Grenze für automatische Systeme ableitet. 

Auf der Basis dieser Vorüberlegungen berichte ich nun beispielhaft aus einer 
Forschungsarbeit (Schäfer & Boguslu, 2021), in der wir den Prozess einer Daten- 
sammlung und Annotation vollzogen haben. In unserer Arbeit war eine wichtige Fra- 
gestellung, unter welchen Gesichtspunkten eine Hate-Speech-Nachricht illegal ist. 
Nachrichten, die gesetzeswidrig sind, müssen in Anwendungen gesondert gehand- 
habt werden. Sie werden in manchen Fällen nicht einfach nur gelöscht, sondern 
sollten gemeldet werden. Daher sollte auch hierfür eine Klassifikation angestrebt 
werden. Dabei haben wir die Unterscheidung von Hate Speech in legal vs. illegal 
zuzüglich zur Abgrenzung von sonstigen Nachrichten so realisiert, dass wir folgende 
drei Kategorien definiert haben: 


1. (illegale) Hate Speech, 
2. (legale) Offensive Language, 
3. sonstige, neutrale Nachrichten. 


Generell waren wir besonders an einer möglichst exakten Phänomendefinition inter- 
essiert, um dafür fundierte Merkmale entwickeln zu können, mit denen automati- 
sche Erkennungssysteme bei der Auswertung spezifischer überprüft werden kön- 
nen. Daher verwendeten wir Gesetzestexte und Gerichtsurteile (aus Deutschland) 
als Basis. Diese sollten als Quellen für Beispiele und damit die Definition des Phä- 
nomens Hate Speech dienen. Die Online-Suchportale von Gerichten zeigten sich 
jedoch als nicht ergiebig genug, um einen größeren Datensatz zum Thema illegale 
Hate Speech in den sozialen Medien zu gewinnen. So finden sich zwar passende 
Gerichtsprotokolle, allerdings erwähnen diese nur in seltenen Fällen spezielle Nach- 
richtenbeiträge oder stützen sich gar auf einzelne davon in der Urteilsbegründung. 
Dadurch lassen sich keine automatisch verarbeitbaren Beispiele des Phänomens 
sammeln. Die im Kontext interpretierten und bewerteten Passagen in Gerichtsur- 
teilen passen nicht auf die reduzierten Daten, die später für Erkennungssysteme 
verarbeitet werden (welcher Struktur diese Daten sind, betrachte ich genauer in 
Abschn. 3). Um trotzdem der Grundmotivation zu folgen, verwendeten wir in der 
Forschungsarbeit die Gesetzestexte und Gerichtsurteile als Basis für unsere Anno- 
tationsrichtlinien und spezifizierten dadurch Unterkategorien von illegaler Hate 
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Speech. In einem zweiten Schritt wendeten wir diese Richtlinien auf neue, empi- 
risch gesammelte Daten an. Hierbei führten wir eine Datensammlung auf Twitter 
durch, wobei wir nur deutsche Beiträge gesucht haben. Durch die Verwendung von 
Suchbegriffen fanden wir Beispiele des Phänomens Hate Speech. Um dabei eine 
möglichst unvoreingenommene Suche durchzuführen, wählten wir vorrangig Such- 
begriffe, die nicht ausschließlich im Zusammenhang mit Hate Speech stehen. Zum 
Beispiel verwendeten wir keine Schimpfworte, sondern wählten Begriffe, die wir 
sowohl in Kontexten von Hate Speech, als auch in neutralen Kontexten vermuteten. 
Beispiele hierfür wären „Schwein“ oder „Polizei“, welche jeweils verschieden ver- 
wendet werden können, also nicht immer zu einer Interpretation als Hate Speech 
führen. Als Resultat produzierten wir einen Datensatz, der in verschiedenen Anno- 
tationsexperimenten ausgewertet wurde. Hierbei hat sich gezeigt, dass speziell mit 
dem Phänomen vertraute Annotator:innen eine höhere Übereinstimmung in den 
Bewertungen haben. 

Bei der empirischen Datensammlung ist es wichtig, sich darüber im Klaren zu 
sein, inwiefern es Einschränkungen für das Resultat im Vergleich zur Realität gibt. 
Der gewonnene Datensatz ist immer nur ein Ausschnitt aus einer Sprechpraxis, 
jedoch sollte versucht werden, eine möglichst repräsentative Abbildung der Reali- 
tät zu erreichen. Ein Nebeneffekt der empirischen Datensammlung sind Verzerrun- 
gen (Bias) der Daten verschiedenster Art. Wird der Datensatz nun zum Trainieren 
eines automatischen Systems verwendet, lernt dieses diese Verzerrung mit. Einen 
Bias bezüglich des Phänomens Hate Speech gibt es bei einer Suche, wie oben 
beschrieben, zunächst aufgrund der Wahl der Suchbegriffe: Im Ergebnis erscheinen 
nur Beiträge, die diese beinhalten. Daher sollte darauf geachtet werden, dass deren 
Vorkommen nicht übermäßig mit den Kategorien der Klassifikation korrelieren. 
Außerdem kann es zu Verzerrungen zu gewissen Themen (Topic-Bias) oder Iden- 
titätsbegriffen (Identity-Term-Bias) kommen, welche vom Suchzeitraum, von der 
Auswahl der Quellen/Plattform oder erneut von der Wahl der Suchbegriffe begüns- 
tigt sein können. Eine Diskussion dieser Problematik liefern zum Beispiel Davidson 
etal. (2019), indem sie hier speziell den Bias von Hate-Speech-Daten bezüglich der 
Nennung bestimmter Rassenbezeichnungen untersuchen. Abschließend lässt sich 
zur Datensammlung sagen, dass auch hier weitere Lösungen zu finden sind, um das 
Phänomen Hate Speech genauer beschreiben zu können. Trotz alledem lässt sich 
mit der dargestellten Methodik umfangreiches Material zum Phänomen Hate Speech 
sammeln, welches wir im folgenden Abschnitt als Grundlage nutzen möchten, um 
Aufgaben zur weiteren Analyse für die Computerlinguistik herauszuarbeiten. 
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3 Aufgaben für die Computerlinguistik 


Generell untersucht die Computerlinguistik Methoden zur computergestützten Ver- 
arbeitung von linguistischem Material. Äußerungen von Hate Speech gelten im 
Allgemeinen als sprachliche Äußerungen, da sie vorrangig in Form von Text aus- 
gedrückt werden. Es gibt jedoch auch multimodale Äußerungen, bei denen nur 
durch eine Kombination von Bild und Text eine Nachricht als Hassbotschaft inter- 
pretierbar wird (siehe auch Jaki in diesem Band). Das Medium, also ob es sich 
um eine schriftliche oder (audio-)visuelle Äußerung handelt, ist für die vorliegende 
Diskussion sekundär. Ich möchte hier auf sprachliche Äußerungen in schriftlicher 
Form fokussieren, da dies die wohl häufigste vorkommende Form von Hate Speech 
ausmacht. 

Die größten Sammlungen computerlinguistischer Forschungen zum Thema Hate 
Speech finden statt in Form von Shared Tasks (Bosco et al., 2018; Wiegand et al., 
2018; Zampieri et al., 2019; Basile et al., 2019; Struß et al., 2019; Mandl et al., 2020). 
Diese werden in einem Modus abgehalten, bei dem von einem Team von Organi- 
sator:innen diverse Gruppen von Forscher:innen eingeladen werden, um gemein- 
sam zu einem bestimmten Thema Beiträge einzubringen. Bei bisher veranstalteten 
Shared Tasks zu Hate Speech hat sich bewährt, dass ein vorgegebener, annotierter 
Datensatz für gemeinsame Untersuchungen bereitgestellt wird. Als Grundaufgabe 
steht üblicherweise die Erkennung von Hate Speech in Kurznachrichten im Vor- 
dergrund. Hier kann man die Erkennung von Hate Speech formal definieren als 
die binäre Klassifikation von Kurznachrichten bezüglich dessen, ob die jeweilige, 
aus einem Kontext gegriffene Nachricht eine Teiläußerung beinhaltet, die als Hate 
Speech interpretiert werden kann. Eine Formulierung als Regressionsproblem, das 
heißt das Messen der Stärke des Hasses in einer Nachricht, ist möglich, wie zum 
Beispiel in einer Arbeit von Ross et al. (2016), allerdings selten. 

Wie schon oben angedeutet, werden bei der Aufgabenstellung aus vielen Grün- 
den häufig mehrere Vereinfachungen getroffen. So werden Beiträge separat analy- 
siert, also ohne den Kontext auf der Plattform, in dem sie geschrieben und später auch 
dargestellt werden, was das Problem vereinfacht. Aufgrund von Datenschutzrech- 
ten ist es außerdem oft nicht möglich, die Nachrichten mit den gesamten Metadaten 
zu speichern, weiterzuverbreiten und für die Forschungen zu nutzen. Daher ist es 
oft notwendig, dass Anonymisierungsverfahren angewandt werden, bei denen zum 
Beispiel Namen von Nutzer:innen und andere personenbezogene Daten gelöscht 
werden; eine Diskussion dieser Problematik wird beispielsweise von Townsend und 
Wallace (2018) präsentiert. Lösungsansätze, die mit solchen reduzierten Datensät- 
zen arbeiten, trainiert und evaluiert werden, können daher nur diese verminderte 
Repräsentation der Realität als Basis nutzen. 
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Weitere Aufgabenstellungen untersuchen oftmals Unterkategorien von Hate 
Speech oder verwandte Kategorien wie Obszönitäten, abhängig von der jeweilig 
gewählten Definition von Hate Speech, wie zum Beispiel in der Arbeit von Rup- 
penhofer et al. (2018). Diese Aufgabe bezeichnet man in der Computerlinguistik als 
Klassifizierungsproblem mit mehreren Klassen. Hierbei ist die Aufgabe, für jede 
gegebene Nachricht eine Kategorie aus einer Menge auszuwählen, welche vom 
Werkzeug passend zu annotieren ist. Eine Annotation von mehreren Kategorien 
gleichzeitig für eine Nachricht ist hingegen äußerst selten, da dies die Aufgabe unge- 
mein verkompliziert. Dies wäre allerdings wohl realitätsnaher, wenn man betrachtet, 
dass zum Beispiel ein Beitrag mehrere Teiläußerungen und auch ganze Sätze bein- 
halten kann, von denen nur ein Teil als Hate Speech gelten könnte. Demnach findet 
man auch Äußerungen, von denen verschiedene Teiläußerungen unterschiedlichen 
Hate-Speech-Kategorien zuzuordnen wären. In solchen Fällen müsste die Gesamt- 
äußerung dann mit mehreren Kategorien annotiert werden. Grundsätzlich wird in 
der Forschung jedoch primär die Frage gestellt, ob der Beitrag auf einer Plattform 
der sozialen Medien als Ganzes als Hate Speech einzustufen wäre. Ich möchte hier 
explizit darauf hinweisen, dass die üblicherweise untersuchte Erkennung von Hate 
Speech daher also nicht als Satzklassifikation bezeichnet werden kann, was eine 
häufige computerlinguistische Aufgabe ist, sondern allgemeiner als eine Klassifi- 
kation von Kurznachrichten. 

Eine computerlinguistische Analyse von Hate-Speech-Nachrichten könnte im 
Detail wie folgt durchgeführt werden: Im ersten Schritt untersucht man die Wor- 
tebene und damit die Bedeutung der einzelnen Wörter, deren Semantik. Hierbei wäre 
es zum Beispiel möglich, durch die Erfassung in Lexika beleidigende Wörter oder 
allgemeiner Wörter mit einem negativen Sentiment zu identifizieren. Auch andere 
Charakteristika von Hate Speech lassen sich damit abdecken, wie zum Beispiel das 
Target (Ziel) der Äußerung. Viele Formen von Hate Speech, wie Beleidigungen oder 
Äußerungen der Volksverhetzung, sind zielgerichtet, das heißt sie werden geäußert, 
um eine spezielle Person oder Gruppe anzugreifen. Diese wird oft explizit genannt 
und kann daher auf Wortebene erkannt werden, wie beispielsweise ElSherief et al. 
(2018) zeigen. 

Wortkomponenten können mit morphologischen Analysewerkzeugen untersucht 
werden, wie zum Beispiel mit dem Werkzeug SMOR (Schmid et al., 2004). Hiermit 
können zum Beispiel Komposita zerlegt werden, wozu zum Beispiel Cap (2014) 
Methoden präsentiert. Damit können Hate-Speech-Nachrichten, in denen nur Teile 
von Wörtern beleidigende Ausdrücke sind, speziell untersucht werden. Ein Rückfall 
auf die Zerteilung von Wörtern durch n-Gramme von Buchstaben, also Sequenzen 
von aufeinanderfolgenden Buchstaben der Länge n, ist eine weitere, allerdings lin- 
guistisch weniger motivierte Möglichkeit. Auch ist es manchmal sinnvoll, Wörter 
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auf ihre Grundformen zurückzuführen, um eine erhöhte Verallgemeinerungsfähig- 
keit in der weiteren Analyse zu ermöglichen. Hierfür bietet die Computerlinguistik 
Lemmatisierungswerkzeuge an, wie zum Beispiel die Systeme von Müller et al. 
(2015) und Bergmanis und Goldwater (2018). 

Üblicherweise bedient sich die semantische Analyse von Wörtern sogenannter 
Word Embeddings, die numerische Bedeutungsrepräsentationen sind. Eine häufig 
genutzte Methode zu deren Training ist Word2Vec (Mikolov et al., 2013). Diese 
Embeddings können auf großen Datenmengen vortrainiert werden. Nach dem Prin- 
zip der distributionellen Semantik (Harris, 1954; Firth, 1957) vereinen sie dadurch 
präzise in sich diverse semantische Eigenschaften von Wörtern. Daher sind Word 
Embeddings gut geeignet für eine automatische Weiterverarbeitung. 

Um nun weiter die Bedeutungen einzelner Wörter in einer Äußerung zu kom- 
binieren, erfolgt die Analyse im nächsten Schritt auf Satzebene. Hierbei wird die 
Anordnung der Wörter, also die Struktur im Satz, die Syntax, betrachtet. Diese 
Betrachtung erlaubt es zum Beispiel oft auch, mehrdeutige Wörter zu disambi- 
guieren, weil Wörter aus dem unmittelbaren Kontext Hinweise auf die gemeinte 
Bedeutung liefern. Mittels automatischer syntaktischer Analysewerkzeuge, soge- 
nannter Parser (beispielsweise Bohnet, 2010), ist es außerdem möglich, die Bedeu- 
tung von Wortkombinationen in Hate-Speech-Nachrichten zu analysieren. Zum Bei- 
spiel ergibt sich, wenn mehrere Personennamen in einer Beleidigung vorkommen, 
erst aus der Satzstruktur, welche Person beleidigt werden soll. 

Der logische nächste Schritt, nachdem eine semantische und syntaktische Ana- 
lyse auf Wort- und Satzebene durchgeführt wurde, wäre eine pragmatische Diskur- 
sanalyse, bei der die Bedeutung im Kontext interpretiert wird, wie es beispielsweise 
von Assimakopoulos et al. (2017) präsentiert wird. Viele Forschungen zu Hate 
Speech jedoch wagen diesen Schritt noch nicht, da er die Aufgabe deutlich komple- 
xer macht. Außerdem sind auch oft, wie oben bereits erwähnt, Zusatzinformationen 
aus dem Kontext nicht abrufbar, wie Metadaten oder andere Nachrichten aus dem 
direkten Diskurs auf der Plattform. 

Ich möchte an dieser Stelle darauf hinweisen, dass die so beschriebene Methodik 
nach der Analyse auf Satzebene nicht immer komplette Nachrichten, die bezüglich 
Hate Speech zu analysieren sind, abdecken würde, da diese aus mehreren Sätzen, 
oder zusätzlichen Charakteristika von sozialen Medien, wie Emojis, bestehen kön- 
nen. Um diese Diskrepanz zu umgehen, wird der Schritt häufig vereinfacht. So 
betrachtet man oft einen Beitrag als ein einziges, komplettes Element, also eine 
Äußerung, die nicht unterteilt wird, und lässt die syntaktische Detailanalyse außen 
vor. Auch ist die Aufgabe meist so formuliert, dass Systeme nur erkennen sollen, 
ob ein Beitrag Hate Speech enthält und nicht, welcher Teil des Beitrags genau Hate 
Speech ausmacht. Auch wird oft angenommen, dass die zu analysierenden Beiträge 
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Kurznachrichten sind und damit so kurz, dass sich viele Analysemethoden für Sätze 
direkt auf sie übertragen lassen. 


4 Methoden zur Erkennung 


In diesem Abschnitt diskutiere ich nun grundlegende Methoden für die Erken- 
nung von Hate Speech. Die Aufgabe für diese Methoden habe ich oben als binäre 
Kurztextklassifikation bezeichnet, mit den zwei disjunkten Klassen, die es zu unter- 
scheiden gilt: Hate Speech und zulässiger/neutraler Inhalt. Ich nehme diese Kate- 
gorisierung nun als gegeben an, in Form von Richtlinien und von manuell voranno- 
tierten Daten. Lösungsansätze werde ich im Folgenden mit der groben Einteilung in 
drei Kategorien diskutieren: Lexikonbasierte Erkennung, Methoden auf der Basis 
von erklärbaren maschinellen Lernsystemen und Methoden auf der Basis von neu- 
ronalen Netzwerken. 


4.1 Lexikonbasierte Erkennungsansätze 


Lexikonbasierte Erkennungsansätze verwenden ein vorab erstelltes Lexikon, wel- 
ches Wörter und Wortverbindungen enthält, die als Merkmale für die Erkennung von 
Hate Speech hilfreich sind. Beispielanwendungen solcher Methoden werden von 
Spertus (1997), Gitari et al. (2015) und Del Vigna et al. (2017) gezeigt. Verwendete 
Lexika müssen dabei nicht nur aus Begriffen bestehen, die eindeutig über die Kate- 
gorisierung einer Äußerung entscheiden, zum Beispiel eindeutig als Beleidigung zu 
verstehende Begriffe. Genauso können auch Lexika für andere Charakteristika von 
Hate Speech genutzt werden, zum Beispiel Sammlungen von typischen Targets von 
Hate Speech können zusätzliche Merkmale zur Identifikation von potentiell relevan- 
ten Äußerungen liefern. Auch können Lexika anhand von gegebenen Trainingsdaten 
trainiert werden, wie von Razavi et al. (2010) gezeigt. Hierbei können zum Beispiel 
Gewichte maschinell gelernt werden, also einzelne Einträge der Lexika als in höhe- 
rem bzw. geringerem Maß ausschlaggebend für die Klassifikation markiert werden. 
Schließlich gibt es beim Einsatz von Lexika auch viele Wahlmöglichkeiten, wie 
diese verwendet werden. Eine einfache Klassifikation beim Vorkommen eines ein- 
zelnen Begriffs aus dem Lexikon scheint zu trivial, um das Problem zu lösen, auch 
deswegen, weil eine solche Methodik leicht zu umgehen wäre. Vielmehr erscheint 
es sinnvoller, Regeln aufzustellen für das kombinierte Auftreten mehrerer Begriffe 
oder mehrerer unterschiedlicher Merkmalskategorien, die sich aus Lexika ableiten 
lassen, um verschiedenartige Äußerungen von Hate Speech erkennen zu können. 
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Wenngleich Entscheidungen von lexikonbasierten Systemen immer direkt nachvoll- 
ziehbar sind, haben sie auch diverse Nachteile. Ein Problem ist, dass das Erstellen 
von guten Lexika einen extrem hohen manuellen Arbeitsaufwand fordert und das 
Ergebnis bei der Unendlichkeit der Sprache auch nie vollständig sein kann. So ist es 
immer nötig, Lexika regelmäßig zu erweitern und zu pflegen, da sich der Sprachge- 
brauch und damit auch Hate Speech im ständigen Wandel befindet. Ein reichhaltiges 
Lexikon präsentieren beispielsweise De Smedt et al. (2020). Allein nur durch regel- 
basierte Systeme mit Lexika ist die Anpassbarkeit an ein komplexes Phänomen, 
wozu eine umfassende Definition von Hate Speech unbestreitbar zählt, schwer oder 
gar unmöglich zufriedenstellend zu realisieren. Es scheint unmöglich, alle Regeln 
für das Phänomen Hate Speech aufzustellen, wenn selbst Menschen große Schwie- 
rigkeiten haben, eine eindeutige Definition für die gesamte Reichweite des Begriffs 
aufzustellen. 


4.2 Erkennungsmethoden auf der Basis von erklärbaren 
maschinellen Lernsystemen 


Maschinelle Lernsysteme hingegen verwenden üblicherweise Methoden des über- 
wachten Lernens, die ihre Entscheidungen für bisher noch nicht gesehene Daten 
hauptsächlich anhand von Ähnlichkeiten von Merkmalen im Vergleich zu Trai- 
ningsdaten treffen. Sie werden als erklärbar bezeichnet, wenn der Pfad der Ent- 
scheidungsfindung vom System ausgegeben werden kann und dieser für Menschen 
relativ einfach nachvollziehbar dargestellt werden kann, wie von Doran et al. (2018) 
beschrieben. Dies wäre zum Beispiel der Fall, wenn ein System die Regeln, nach 
denen es seine Entscheidung getroffen hat, ausgeben würde, also zum Beispiel 
die speziell gefundenen Merkmale in einer Äußerung und deren Gewichte. Auch 
lexikonbasierte Systeme könnte man dazu zählen, wenn zum Beispiel, wie oben 
erwähnt, Gewichte für Einträge aus den Trainingsdaten gelernt wurden. 

Ich möchte zu dieser Kategorie hier jedoch hauptsächlich Systeme zählen, bei 
denen das maschinelle Lernen im Fokus steht, auch wenn nicht notwendigerweise 
Wortlisten oder Lexika verwendet werden. Hierbei gestaltet sich der Prozess übli- 
cherweise zweistufig. Zunächst wird definiert, wie aus einer Eingabe (hier eine 
Kurznachricht) Merkmale extrahiert werden. Dabei können auch anfänglich even- 
tuell abstrakt erscheinende Merkmale, wie zum Beispiel die Anzahl der Wörter 
in der Nachricht oder die Anzahl der verwendeten Satzzeichen, im Gesamtsys- 
tem einen gewinnbringenden Effekt haben. In der Forschung wurden außerdem 
auch computerlinguistische Merkmale aus semantischen und syntaktischen Analy- 
sen der Eingabe sowie die Verwendung von Wortlisten oder Lexika erprobt. Nach 
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der Merkmalsdefinition wird in der zweiten Stufe eine Lernmethode angewandt, 
bei der Gewichte und Kombinationen der Merkmale anhand von Trainingsdaten 
gelernt werden, wobei der Entscheidungsprozess dieser Systeme meist noch nach- 
vollziehbar bleibt. Solche Systeme implementieren Algorithmen auf der Basis von 
beispielsweise Entscheidungsbäumen oder Support Vector Machines. Als Ergebnis 
erhält man ein trainiertes Modell, mit dem das System eine Vorhersage für ungese- 
hene Daten anhand nachvollziehbarer Extraktion von Merkmalen, deren Gewich- 
tung und deren Kombination treffen kann. Diverse solcher Systeme wurden zum 
Beispiel von Alfina et al. (2017), MacAvaney et al. (2019) und Rother und Rettberg 
(2019) angewandt. Ein Nachteil dieser Methoden ist, ahnlich wie bei lexikonbasier- 
ten Ansätzen, dass es sehr aufwändig sein kann, sinnvolle Merkmale für komplexe 
Probleme vorzugeben. Hierbei ist eine hohe Quantität der Merkmale entscheidend, 
um möglichst die gesamte Varietät des Phänomens zu erfassen. Zusätzlich gilt es 
aber auch, Merkmale mit einer hohen Qualität bezüglich deren Nutzen zur Erken- 
nung des Phänomens zu finden, da es dem System sonst nicht gelingt, damit ver- 
nünftig zu lernen. Die angesprochenen Methoden haben allerdings den Vorteil, dass 
nicht geeignete Merkmale auch im Trainingsprozess identifiziert werden können. 
Außerdem ist die Anpassbarkeit an Veränderungen im Phänomen üblicherweise 
höher als bei rein lexikonbasierten Ansätzen. 


4.3 Erkennungsmethoden auf der Basis von neuronalen 
Netzwerken 


Die in den letzten Jahren populär genutzten Methoden auf der Basis von neurona- 
len Netzwerken unterscheiden sich von den bereits diskutierten Ansätzen insofern, 
dass ihre Entscheidungsprozesse nicht trivial nachvollziehbar sind. Sie bedienen 
sich beim maschinellen Lernprozess vielmehr einer äußerst komplexen und mehr- 
fachen Kombination von Merkmalen. Üblicherweise wird hierbei so vorgegangen, 
dass Eingabedaten in einem möglichst unverarbeiteten Zustand dem Netzwerk zur 
Verfügung gestellt werden. Durch die manuelle Definition von Merkmalen, wie 
sie bei den obigen Systemen angewandt wird, wird eine Vorauswahl getroffen, 
die Teilinformationen herausfiltert. Dies wird nur angewandt, wenn es nötig ist, 
die Informationsmenge der Eingabe zu reduzieren. Neuronale Netzwerke hingegen 
sind dafür konzipiert, mit einer großen Menge an Eingabewerten zu arbeiten und 
wählen daher einen anderen Weg, indem sie direkt mit der unverarbeiteten Eingabe 
arbeiten. Sie haben den großen Vorteil, dass sie von der Architektur her so aufge- 
baut sind, dass sie nicht nur die Gewichtung und Kombinationen von Merkmalen 
selbst lernen können, sondern auch die Merkmalsextraktion. Außerdem sind die 
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Kombinationsmöglichkeiten von Merkmalen ungemein komplex. Daher ist es für 
einen Menschen nicht möglich, den Entscheidungsprozess nachzuvollziehen. Das 
Training des Netzwerks erfolgt im maschinellen Lernprozess, allerdings nur auf 
der Basis der gegebenen Daten. Das bedeutet, dass das Netzwerk sein Wissen über 
das Phänomen nur aus den Trainingsdaten zieht und dadurch seine Entscheidungen 
begründet werden können. Neuronale Netzwerke sind jedoch bekannt dafür, über- 
aus hungrig nach Trainingsdaten zu sein, da sie mehrere Millionen von Gewichten 
lernen müssen. Im Bezug auf die Leistungsfähigkeit haben sich in den letzten Jahren 
neuronale Netzwerke in mehreren Anwendungen der Computerlinguistik als füh- 
rend erwiesen. Richtungsweisend dabei ist die Methode im System BERT (Devlin 
et al., 2019), welches auf einem Transformer-Modell (Vaswani et al., 2017) basiert. 

In Systemen werden zur Erkennung von Hate Speech mit neuronalen Netzwer- 
ken diverse Strukturen verwendet, die meist auf den Word Embeddings der Eingabe 
aufbauen. So rechnet ein Multilayer Perceptron (MLP) direkt mit allen beliebi- 
gen gewichteten Kombinationen der Eingabemerkmale. Bei einem Convolutional 
Neural Network (CNN) hingegen werden schrittweise aufeinanderfolgende Grup- 
pen von Eingabemerkmalen ausgewählt und gewichtet kombiniert. Dies wird meist 
so konfiguriert, dass damit immer kurze Wortsequenzen (n-Gramme von Worten) 
betrachtet werden, was gut auf die Aufgabe der Erkennung von Hate Speech zu 
passen scheint, da es hierbei ja oft der Fall ist, dass nur eine Teilsequenz einer 
Äußerung Ausdruck von Hass ist. Bei einem Recurrent Neural Network (RNN) 
wird hingegen die Eingabe als eine komplette Sequenz verarbeitet, was längere 
Strukturen direkter in Kombination analysiert. Verschiedene neuronale Architektu- 
ren wurden zum Beispiel angewandt von Gröndahl et al. (2018), Founta et al. (2019) 
und Schäfer (2018). Richtungsweisende Forschungen der letzten Jahre haben dar- 
auf fokussiert, die Enkodierungsmethode auf Basis der Embeddings der Eingabe 
zu verbessern. So ist es mit dem Attention Mechanism (Bahdanau et al., 2015) 
möglich, für jedes Wort eine Gewichtung zu lernen, die aussagt, wie sehr es in der 
Bedeutung für eine Anwendung von seinen Kontextworten beeinflusst wird. Dies ist 
ein wichtiger Baustein von hochperformanten Transformer-Modellen. Mit diesen 
ist es möglich, kontextabhängige Word Embeddings vorzutrainieren (Devlin et al., 
Devlin et al. 2019), welche in vielen Anwendungen, wie auch bei der Erkennung 
von Hate Speech, mit die besten Ergebnisse bei statistischen Evaluierungen liefern. 
Anwendungen solcher Methoden auf die Hate-Speech-Erkennung präsentieren bei- 
spielsweise Risch et al. (2019), Paraschiv und Cercel (2019), Liu et al. (2019) und 
Wiedemann et al. (2020). 
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5 Ausblick 


Methoden zur computerlinguistischen Behandlung von Hate Speech zeichnen sich 
meist dadurch aus, dass sie auf Trainingsdaten basieren und versuchen, daraus 
wiederkehrende Merkmalskombinationen zu lernen. Selbst neuronale Netzwerke 
basieren grundständig auf manuell annotierten Daten und implementieren keine 
unkontrollierte künstliche oder irgendwie kreative Intelligenz. Allerdings möchte 
ich damit schließen, dass neuste Systeme dennoch intelligent dabei vorgehen, durch 
Auswahl, Gewichtung und Kombination von Merkmalen zu lernen, womit man 
gegen Hate Speech vorgehen kann. Automatische Werkzeuge können dazu einen 
erheblichen Beitrag leisten, ersetzen jedoch die manuelle Moderation von Inhalten 
nicht vollständig. 

Zusammenfassend lässt sich sagen, dass bei der Erkennung von Hate Speech in 
der Forschung oftmals detaillierte Analyseergebnisse computerlinguistischer Ver- 
fahren bislang nur begrenzt genutzt werden. Gerade die Extraktion und präzise 
Analyse von Teiläußerungen von als Hate Speech zu klassifizierenden Nachrichten 
durch computerlinguistische Werkzeuge scheint untererforscht. Vielversprechende 
Ergebnisse könnten sich jedoch in der Kombination diverser Methoden zeigen. 
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KI-Verfahren für die Hate Speech 
Erkennung: Die Gestaltung von 
Ressourcen für das maschinelle Lernen 
und ihre Zuverlässigkeit 


Thomas Mandl 
1 Maschinelles Lernen zum Erkennen von Hate 
Speech 


In sozialen Netzwerken treten aufgrund der fehlenden Moderation problematische 
Inhalte auf. Nutzer*innen posten häufig Hassbotschaften, aggressive Äußerungen, 
Beschimpfungen oder Desinformation, die dann online sichtbar und verfüg- 
bar bleiben. Aufgrund der schieren Menge von Nachrichten können solche 
problematischen Inhalte nur automatisch erkannt werden. Ausprägungen von 
Hassrede sowie deren negative Folgen werden in diesem Band ebenso erläutert 
(Jaki in diesem Band) wie die Problematik der politischen Regulierung solcher 
Inhalte (Schünemann und Steiger in diesem Band). 

Methoden des maschinellen Lernens und der automatischen Sprachver- 
arbeitung werden eingesetzt, um möglicherweise problematische Posts zu identi- 
fizieren (Schäfer in diesem Band). Solche Verfahren werden gemeinhin als 
Methoden der Künstlichen Intelligenz (KI) bezeichnet. Einen rechtlichen Rahmen 
dafür setzt u. a. das im Oktober 2019 ergangene Urteil des EUGH, das den Ein- 
satz von automatisierten Verfahren sogar für notwendig befindet (Heldt, 2020). 

Bei dieser Bewertung von menschlichen Texten durch Computer rückt die 
ethische Dimension und vor allem der schmale Grat zwischen Meinungsfreiheit 
und Zensur in den Fokus. Die Gesellschaft wird KI-Methoden nur akzeptieren, 
wenn das Vertrauen in ihre Ergebnisse sichergestellt werden kann (Kuhlen, 
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1999). Marc Zuckerberg hat in seinen vier Thesen zur Regulierung des Inter- 
nets gefordert, Hate Speech eindeutig zu definieren (Lewanczik, 2019). Jedoch 
gestaltet sich dies sehr schwierig, denn die Vorstellungen, welche Inhalte 
problematisch sind, variieren je nach Person sehr stark. 

Das maschinelle Lernen konnte in den letzten Jahren erhebliche Fortschritte 
erzielen. Algorithmen suchen nicht nach einzelnen Wörtern oder anhand von 
manuell erstellten Regeln nach sprachlichen Mustern, sondern bauen aus vielen 
Beispielen Klassifikationsverfahren auf, die letztlich nach vergleichbaren Posts 
suchen (Schäfer in diesem Band). Ein Schema hierfür zeigt Abb. 1. 

Diese Trainingsdaten bestehen aus Beispielen für unangemessene Inhalte und 
aus Gegenbeispielen für akzeptable Inhalte. Da die Themen innerhalb der hass- 
erfüllten Inhalte äußerst heterogen sein können, sollten sie möglichst breit durch 
Trainingsdaten abgedeckt sein. Die für das Training verwendeten Texte und die 
Entscheidungen dazu sind für die Entwicklung von KI-Verfahren entscheidend. 
Ihre Zusammenstellung hat den größten Einfluss unter allen Design-Ent- 
scheidungen bei der Implementierung von Detektionssystemen für Hassrede. 

Dieser Artikel stellt zunächst kurz einige wissenschaftliche Benchmarks 
vor, mit denen Verfahren trainiert und evaluiert werden. Dabei lassen sich neue 
Trends für die Gestaltung solcher Daten beobachten. Im Anschluss werden dann 
Herausforderungen besprochen, die zu Verzerrungen führen können, so dass die 
trainierten Systeme im Realbetrieb nicht die gewünschte Erkennungsleistung 
zeigen. Diese Gefahr droht, wenn Daten von den Trainingsdaten abweichen. 
Ein Weg, diese Übertragbarkeit auf reale Situationen zu erproben, besteht in der 
Anwendung mehrerer anderer Datenmengen für das Testen. Auch die Erhöhung 
der Transparenz im Betrieb für Moderator*innen oder Nutzer*innen kann Ein- 
blick in das Funktionieren der Systeme und damit auch die angestrebte Qualität 
der Daten bieten. 


.— 
Darstellung des ~ 
maschinellen Lernprozesses 0124 A 
bei der Klassifikation 3568 B . 
Bekannte Extraktion 
Items 0124 A eines 
Modells 
2579 D 
3678 ic 
— 
N 2356 ? 
eue 
Items | 0124 ? zu Anwendung 
3679 ? des Modells. 
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2 Bestehende Benchmarks 


Die Erstellung von Datensammlungen bildet ein zentrales Instrument für die 
Forschung zur Erkennung und Bekämpfung von Hassrede. Hierzu werden echte 
Tweets oder Posts aus sozialen Netzwerken systematisch gesammelt und zunächst 
von Menschen in zwei oder mehrere Klassen kategorisiert. Der Aufwand für 
die Erstellung solcher Daten ist hoch und kann nicht von allen Forscher*innen 
geleistet werden. Dementsprechend hat sich für diese Forschung das Prinzip 
der offenen Forschungsdaten etabliert. Einzelne Forschungsgruppen entwickeln 
Daten und stellen diese der Forschungs-Community zur Verfügung. Das führt 
zudem zu dem positiven Effekt, dass die verschiedensten Algorithmen von 
mehreren Forscher*innen anhand der gleichen Daten verglichen werden. Die 
Ergebnisse bei der Klassifikation sind direkt vergleichbar. 

Diese Prinzipien haben beispielsweise auch bei der Forschung zum 
Information Retrieval zu erheblichen Fortschritten bei Suchalgorithmen geführt 
(Mandl, 2008; Womser-Hacker, 2013). Das Vorgehen wird oft als Organisation 
einer Shared Task oder als Aufbau eines Benchmarks bezeichnet. Dabei werden 
Daten nicht nur von der Fachwelt genutzt und gegebenenfalls auch später nach- 
genutzt, sondern auch die Qualität der Daten kann kritisch untersucht werden. 
Shared Tasks werden auch mit Daten zu Desinformation (Nakov et al., 2021), zu 
Bildern (Joly et al., 2020) oder Nutzer-Logfiles organisiert (Mandl et al., 2009). 

So entstehen derzeit international zahlreiche Datensammlungen, um dem 
Problem der Hassrede begegnen zu können (siehe Madukwe et al., 2020 für einen 
Überblick). Auch für verwandte Themen wie Online-Extremismus entstehen 
solche Ressourcen (Gaikwad et al., 2021). 

Im Folgenden werden der Benchmark GermEval für das Deutsche und 
die mehrsprachige Shared Task HASOC erläutert. Für das Deutsche wurden 
im Rahmen der GermEval-Initiative zwei Datensets entwickelt (Struß etal., 
2019; Wiegand etal. 2018). Zugrunde lagen Twitter-Daten, welche die 
Organisator*innen annotieren ließen. GermEval definiert die Klassen ABUSE, 
INSULT und PROFANITY (Missbrauch und Beschimpfung, Beleidigung, 
Fluchen und Vulgarität). Die Systeme sollen als primäre Aufgabe alle Tweets in 
diese drei Klassen einteilen (De Smedt & Jaki, 2018). Insgesamt umfasste die 
Menge 2019 über 7000 Tweets. Dabei überwiegt laut den Organisatoren deut- 
lich das extrem rechte politische Spektrum, denn 90 % der Inhalte fallen in diese 
Kategorie. 

Neben dem Einordnen als Hassrede sollen die problematischen Tweets in 
zwei weitere Klassen, nämlich ‚implizit‘ vs. ‚explizit‘, sortiert werden. Gemessen 
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wird die Klassifikationsgenauigkeit der Systeme mit dem F1-Maß, das Recall 
und Precision zusammenfasst. Der Recall beschreibt, wie viel Hassrede-Bei- 
träge gefunden wurden, und die Precision, ob dabei wirklich nur problematische 
Inhalte oder auch andere Inhalte zurückgeliefert wurden. Das beste System 
erreichte für die binäre Task (Inhalt problematisch oder nicht) ein Fl-Maf von 
0,76 (Struß et al., 2019). 

Im Rahmen der Initiative Hate Speech and Offensive Content Identification 
in Indo-European Languages (HASOC, hasocfire.github.io) wurden ebenfalls 
Daten für das Deutsche erstellt (Mandl et al., 2020; Modha et al., 2019). HASOC 
modelliert die Aufgabe zunächst als binäre Klassifikation. Die als problematisch 
erkannten Posts sollen dann im zweiten Schritt genauer in die folgenden 
Klassen unterteilt werden: HATE, OFFENSIVE und PROFANE (Hass gegen 
Gruppen, Aggression und Angriff gegen Einzelne, Fluchen und Vulgarität). Die 
Problematik der heterogenen Klassen bei Hate-Speech-Datensets diskutieren 
mehrere Forscher*innen (Fortuna et al., 2020) und sie wird unten erneut auf- 
gegriffen. 

Die Organisatoren von HASOC annotierten 2019 für das Deutsche 4600 
Tweets und Facebook-Posts. Die Top Teams für das Deutsche nutzten über- 
wiegend das BERT-System und liegen eng zusammen (Modha et al., 2019). Für 
HASOC 2020 wurden für das Deutsche über 3400 Tweets annotiert. Es zeigte 
sich, dass BERT und neuere Varianten wie RoBERTa zu sehr guten Ergebnissen 
führen, jedoch auch andere Systeme vergleichbare Werte erzielen (Mandl et al., 
2020). Für den Durchgang im Jahr 2021 wurden Marathi, Hindi und Englisch 
angeboten und insgesamt über 10.000 Tweets annotiert (Modha et al., 2021). 

Das Topic Model in Tab. | fasst die Themen im HASOC-2019-Datenset für 
das Deutsche zusammen. Topic Modeling versucht, die wichtigen thematischen 
Felder innerhalb einer Menge von Texten zu erkennen (Vayansky & Kumar, 
2020). Dazu werden Wörter gesammelt, die häufiger zusammen vorkommen und 
zu einem Thema zusammengefasst. Diese Wörter werden der Reihenfolge ihrer 
Prominenz für das jeweilige Thema nach sortiert. Die Themen müssen inter- 
pretiert und mit einem Label als Überschrift versehen werden. Die Interpretation 
fällt nicht leicht, da auch häufig vorkommende Wörter wie Verben oder bei einem 
Twitter-Korpus die Namen von Nutzer*innen vorkommen. 

Bei der Erstellung von Shared Tasks für Hassrede zeigen sich neben der 
Diversifizierung hinsichtlich der abgedeckten Sprachen noch weitere Trends. 
Neben der rein binären Klassifikation in problematische und unproblematische 
Inhalte werden weitere Ausprägungen von Hassrede berücksichtigt. So zielen bei- 
spielsweise drei Benchmarks spezifisch auf die Erkennung von Misogynie und 
Sexismus ab (Fersini etal., 2018; Guest et al., 2021; Rödriguez-Sänchez et al., 
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Tab. 1 Topic Model aus den HASOC 2019 Trainings- und Testmengen für das Deutsche 


Topic Label | Topic Wörter 


Meinung Gibt junge immer meinung land realjohr grünen kommen warum müssen 


Polizei Findbecci endlich finjafinte danke sucht polizei schwager deutschland 
ganze merkel 


Chemnitz Uwe_junge_mdl deutschland merkel hartes_geld chemnitz immer gehen 
sozialismus wählt angst 


Nazis Einfach nazis müssen berlin deutschland uwe_junge_mdl geld mainwasser 
migranten gewalt 


Deutschland | Uwe_junge_mdl ralf69117 sagen immer deutschland dürfen gehen 
ekelwilfred ungebeten warum 


Geflüchtete | Uwe_junge_mdl deutschland menschen deutschen deutsche welt heute 
flüchtlinge männer sagt 


Wiltewka Ekelwilfred wiltewka alias wilberg a...loch wilayawilanar wilke papa 
capitol merkel 


Grüne Ralf69117 frau polizei grünen gerade immer presse junge männer mutter 


2021). Die Annotation für EXIST IberEval umfasst dabei detaillierte Unter- 
klassen von problematischen Inhalten wie Stereotypisierung, sexuelle Gewalt und 
die Darstellung von Frauen als Objekt (Rödriguez-Sänchez et al., 2021). 

Eine andere spezifische Verfeinerung besteht in der genauen Identifikation 
des Ziels von Hassrede. Dabei soll die Person oder Gruppe identifiziert werden, 
die das Target der Hassrede darstellt. Eine weitere Kollektion greift Ethnizität als 
ein Thema auf, das mit mehreren Klassen modelliert wird (Pronoza et al., 2021). 
Während andere Daten teilweise den Hass gegen Migrant*innen adressieren, 
stellen die Autor*innen spezifisch für die Situation in Russland als multi- 
ethnische Gesellschaft Daten zusammen, bei denen die betroffene Ethnie mit 
annotiert ist und erkannt werden soll. Diese Datensammlung entstand hauptsäch- 
lich aus dem sozialen Netzwerk Vkontakte und enthält Äußerungen zu über 190 
Ethnien (Pronoza et al., 2021). 

Im Rahmen der Shared Task Profiling Hate Speech Spreaders on Twitter im 
Rahmen der PAN Initiative (pan.webis.de) wurden nicht einzelne Botschaften als 
Hassrede, sondern Nutzer*innen als typische Verteiler und Sender von Hassbot- 
schaften identifiziert (Bevendorff et al., 2021). Dabei besteht eine Schwierigkeit 
für die Klassifikation darin, dass diese Nutzenden auch harmlose Nachrichten 
verschicken. Ihr Verhalten muss ganzheitlich betrachtet werden. 
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Außerdem stellt Hate Speech in sozialen Medien ein multimodales Phänomen 
dar, das sehr häufig verbale und verschiedene nonverbale Elemente umfasst. 
Zum Beispiel können sich visuelle und verbale Elemente gegenseitig verstärken. 
Ebenso kann sich der Charakter von Hassrede nur durch das Zusammenspiel 
mehrerer Modalitäten ergeben, während jede Modalität alleine unverfänglich 
erscheint. 

Besonders die erheblichen Fortschritte in der automatischen Bildanalyse der 
letzten Jahre können hier eingebracht werden. Systeme des sogenannten Deep 
Learning erlauben es, Bildinhalte teilweise zu erkennen und mit Texten zu ver- 
knüpfen. Auch die automatische Erkennung von Hate Speech hat die Problematik 
der Multimodalität aufgegriffen und dazu erste Datensets erstellt (z.B. Kiela 
et al., 2021). Für die gemeinsame Verarbeitung von Bild und Text liegen zwar 
noch deutlich weniger Arbeiten vor, jedoch erzielen Systeme jetzt schon Fort- 
schritte durch die gemeinsame Verarbeitung. Meist werden noch Verfahren 
gewählt, die beide Modalitäten parallel verarbeiten und vor der Klassifikation 
oder dem letzten Schritt die Repräsentationen der beiden spezifischen Ver- 
arbeitungssysteme zusammenführen (late fusion). So kann die Mächtigkeit der 
bestehenden Systeme für Text und Bild genutzt werden; die Beziehungen unter- 
einander werden aber besser durch Early-fusion-Systeme ausgenutzt, welche 
beide Modalitäten parallel und unter Bezugnahme aufeinander analysieren. 

Kollektionen für multimodale Hassrede umfassen z. B. Memes aus Facebook, 
bei denen das Bild und der darin eingebettete Text bereitgestellt wird. Beim Ver- 
gleich mehrerer Systeme konnte für das Datenset der Hateful Memes Challenge 
eine Accuracy bis zu 0,7 erreicht werden (Kiela et al., 2021). Mit der Kollektion 
MultiOFF konnten nur Fl-Werte von ca.0,5 erzielt werden (Suryawanshi 
etal., 2020). Auch für das Tamilische liegt eine multimodale Kollektion vor 
(Suryawanshi & Chakravarthi, 2021). 


3 Kontext und Konversationsanalyse 


Eine der großen Herausforderungen bei der Annotation von Hassrede für den 
Aufbau von Trainingsdaten ist der fehlende Kontext. In einem sozialen Netzwerk 
steht jede Äußerung in einem kommunikativen Zusammenhang und wird von den 
Leser*innen unter Einbezug eventuell vorhergehender Äußerungen interpretiert. 
Aufgrund der Kürze von Texten auf Online-Plattformen werden gerade dort 
Bezüge nicht explizit genannt, sondern der Sender vertraut auf den gegebenen 
Kontext. Betrachtet man nun jede Äußerung für sich, können völlig unterschied- 
liche Interpretationen entstehen. 
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Naturgemäß sind Betroffene von Hassäußerungen im Moment des Empfangs 
besonders belastet. In einer Interview-Studie befragten Forscher*innen sowohl 
die Sender als auch die Empfänger von problematischen Inhalten. Es zeigte 
sich, dass die beiden Gruppen die jeweilige Äußerung völlig unterschiedlich ein- 
stuften. Während die Empfänger diese teilweise als psychologisch sehr belastend 
wahrnahmen, hielten Sender ihre Botschaften für eher unproblematisch und 
empfindliche Reaktionen darauf für überzogen und nicht nachvollziehbar (Jhaver 
et al., 2018). 

Aber auch unabhängig von der direkten Betroffenheit werden Inhalte sehr 
unterschiedlich wahrgenommen, wobei ebenfalls der Kontext eine große Rolle 
spielt. Eine positive und zustimmende Aussage mag für sich allein stehend unver- 
fänglich sein, wenn man diese allerdings z. B. als Reaktion auf eine rassistische 
Beschimpfung liest, könnte sie ebenfalls als Hassrede gelten. Diese Problematik 
adressieren die oben erläuterten Shared Tasks im Forschungsfeld bisher nicht, 
denn Botschaften sollen darin in aller Regel nur aufgrund ihres Inhalts klassi- 
fiziert werden. Damit weichen sie allerdings auch von der Realität auf Platt- 
formen ab. KI-Systeme im realen Einsatz können sehr wohl auf die vorherigen 
Botschaften zugreifen und den Kontext einbeziehen. Die Erstellung derartiger 
Datensets erfordert allerdings deutlich mehr Aufwand. Die Analyse der genauen 
Struktur von Kommunikation anhand der Abfolge von Nachrichten ist beispiels- 
weise für Twitter nicht trivial. 

In einem Ansatz für die Erkennung problematischer Inhalte haben Pavlopoulos 
et al. (2020) Kontext-Information eingesetzt. Ihre Definition von problematischen 
Inhalten greift auf den Begriff der Toxizität zurück und ist somit mit einer breiten 
Definition von Hassrede vergleichbar. Anwendungsdomäne für dieses Experi- 
ment waren die sogenannten Wikipedia Talk Pages, auf denen Autor*innen und 
Editor*innen über mögliche Verbesserungen der Online-Enzyklopädie dis- 
kutieren. Dazu wurden zunächst 20.000 Nachrichten extrahiert. Diese Daten- 
menge wurde über Crowd-Work annotiert. 

Kontext wurde allerdings lediglich dadurch erzeugt, dass die Forscher*innen 
die ursprüngliche Nachricht und den Titel des Threads der Diskussion mit- 
erfassten (Pavlopoulos etal., 2020). Dabei ist die Ursprungs-Nachricht mög- 
licherweise nicht die relevanteste für die Entscheidung über die eigentliche 
Bedeutung eines Beitrags. Der Anteil von Hassbotschaften innerhalb der Daten- 
sammlung liegt mit ca. 6 % im Vergleich mit anderen Benchmarks relativ niedrig. 
Dies zeigt, dass die Autoren eher zufallsgesteuert vorgegangen sind. Damit 
schaffen sie einen realistischen Eindruck von der Häufigkeit von Hassrede in 
realistischen Szenarien und davon, wie oft Nutzer*innen tatsächlich derartigen 
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Botschaften ausgesetzt sind. Allerdings stellt dieser niedrige Anteil eine erheb- 
liche Schwierigkeit für das maschinelle Lernen dar. 

Die Autoren verweisen darauf, dass die Hälfte der Daten ohne Kontext 
annotiert wurde (Pavlopoulos et al., 2020). Die Genauigkeit bei der Klassifikation 
bei beiden Mengen war vergleichbar. Daraus ziehen die Autoren den Schluss, 
dass Kontext für die Erkennung von Hassrede nicht hilfreich sei. Diese Folgerung 
erscheint jedoch als zu weitreichend, denn bei zwei Datensets ist auch bei sonst 
gleichen Bedingungen grundsätzlich damit zu rechnen, dass Systeme unterschied- 
liche Erkennungsraten erzielen (Fortuna et al., 2021). 

Ein weiterentwickeltes Modell, das bei der Hate-Speech-Erkennung Kontext 
berücksichtigt, setzen Menini etal., (2021) um. Ihre Definition greift auf den 
Begriff des Missbrauchs zu und fällt damit wieder in eine weite Definition 
problematischer Inhalte (Menini et al., 2021). Um den Aufwand für die Erstellung 
der Benchmark-Daten zu erleichtern, wurde eine bereits bestehende Datenmenge 
genutzt. Diese Tweets wurden auf Basis des Texts erneut automatisch auf den 
sozialen Plattformen gesucht und im Erfolgsfall wurden die vorherigen Tweets 
extrahiert. Dadurch bestehen sehr unterschiedliche Größen des identifizierten 
Kontexts. Die Autoren berichten, dass etwa 45 % der hasserfüllten Tweets einen 
vorangehenden Tweet als Kontext besaßen und für weitere 45 % zwischen zwei 
und fünf vorangegangene Tweets gefunden wurden. Nur bei etwa 10 % standen 
mehr als fünf Tweets als Kontext zur Verfügung. 

Bei der Annotation mit und ohne Kontext zeigte sich, dass fast 50 % der als 
Hassbotschaften ausgewiesenen Nachrichten mit Kontext nicht mehr als solche 
betrachtet wurden. Der umgekehrte Effekt war geringer (Menini et al., 2021). 

Diese Problematik des Kontexts greift auch die HASOC Contextual Subtask 
2021 auf. Dabei sollte auf eine weitgehend einheitliche Größe des Kontexts Wert 
gelegt werden und auch alle Kontext-Tweets sollten einheitlich annotiert werden. 
Zudem war ein weiteres Ziel, den Anteil der Hassrede relativ hoch zu halten, um 
ihn für maschinelles Lernen angemessen zu gestalten (Satapara et al., 2021). 

Die erstellte Kollektion ICHCL (Identification of Conversational Hate-Speech 
in Code-Mixed Languages) besteht aus ca. 100 Tweets, ca. 2500 Antworten 
auf diese und ca. 1200 Reaktionen auf einige der Antworten (Replies). Jeder 
der Ursprungs-Tweets wurde mit ca. zehn Antworten und Replies erfasst. Alle 
Tweets, Antwort-Tweets und Reply-Tweets wurden annotiert und enthielten 
insgesamt ca. 50 % als Hassrede oder aggressive Posts. Im Datenset wird die 
Struktur und Abfolge der Tweets deutlich gekennzeichnet. Somit konnten 
Systeme bei der Auswertung darauf zugreifen. Eine Vorab-Analyse mit Baseline- 
Systemen zeigte, dass die Kontext-Information für die Verbesserung der Genauig- 
keit der Hate-Speech-Erkennung hilfreich ist (Satapara et al., 2021). 
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4 Vorgehen beim Aufbau von Trainingsdaten 


Algorithmen für die Erkennung von Hassrede erzielen ihre Ergebnisse scheinbar 
völlig objektiv. Jedoch stehen hinter ihrer Gestaltung zahlreiche Entscheidungen. 
Beispielsweise ist der Aufbau von Trainingsmengen eine soziale Konstruktion, 
die in einem bestimmten Kontext unter Rahmenbedingungen und Zwängen 
erfolgt. Die Entwickler*innen von Daten treffen bei der Gestaltung der Trainings- 
daten bewusst oder unbewusst Entscheidungen, die sich auf die Daten auswirken 
und somit auch die Wirksamkeit der KI-Verfahren beeinflussen (siehe auch 
Demus et al. in diesem Band). 

Die Repräsentation von Texten für die Verarbeitung in Klassifikationssystemen 
erfolgte traditionell auf der Basis des Auftretens von Wörtern. Zunehmend 
gelangen auch verteilte semantische Repräsentationen zum Einsatz, welche 
nur kurze Vektoren mit ca. 100 Dimensionen benötigen (Mandl, 2020). Damit 
schreiten Systeme von symbolischen Repräsentationen zur subsymbolischen 
Ebene fort, bei der interne Strukturen nicht mehr eindeutig interpretiert werden 
können. Dokumente werden durch eine Reihe von Zahlen repräsentiert, so dass 
ähnliche Wörter ähnliche Vektoren besitzen. Somit können diese innovativen Ver- 
fahren des Deep Learning nicht nur auf lexikalischer Ebene entscheiden, sondern 
sie können die Bedeutung von Wörtern durch die Ähnlichkeiten zwischen diesen 
besser abbilden (siehe Schäfer in diesem Band). Gleichwohl können auch solche 
Verfahren mit der ironischen oder metaphorischen Verwendung von Begriffen 
(siehe Jaki in diesem Band) noch Schwierigkeiten haben. 

Bei einer Trainingsmenge sollten möglichst viele verschiedene Beispiele als 
Repräsentanten von heterogenen Formen von Hate Speech präsent sein. Wie 
dieser Merkmalsraum vollständig abgedeckt werden kann, bleibt jedoch völlig 
offen. Innovative Formen der Hate Speech, die durch kreative sprachliche Muster 
entstehen oder auch Hate Speech zu neu aufkommenden Themen lässt sich so 
also nur schlecht erkennen. 

Die Trainingsmenge sollte repräsentativ für die bekannten Formen der 
problematischen Inhalte sein, wobei aber aufgrund der Vielfältigkeit sprachlicher 
Ausdrucksformen unklar ist, wie diese Repräsentativität erreicht oder erkannt 
werden kann. Somit kann lediglich der Prozess der Erstellung von Hate-Speech- 
Datenmengen betrachtet und bewertet werden. Er besteht üblicherweise aus den 
folgenden Schritten (Vidgen & Derczynski, 2020): 


1. Erstellung einer Strategie zur Vorauswahl von Inhalten aus sozialen Netz- 
werken; 
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2. Umsetzung der Strategie mit Werkzeugen und Extraktion von Posts aus 
großen Mengen Text aus sozialen Netzwerken; 
3. Annotation einer Vorauswahl durch Menschen. 


Die Strategie besteht zum einen oft im Auswählen von Begriffen, die für Hate 
Speech typisch sein könnten (GermEval) oder auch im Erstellen eines Vorab- 
Klassifizierers (Mandl et al., 2020). In beiden Fällen können bestimmte Inhalte 
präferiert werden. So spielen bei der Auswahl von Begriffen notwendigerweise 
Vorkenntnisse bzw. Annahmen über Hate Speech eine erhebliche Rolle. Ganze 
Komplexe problematischer Inhalte könnten übersehen werden, wenn lediglich 
bereits bekannte Themen in die Daten mit einbezogen werden. 

Die Auswahl von bestimmten Hate-Speech-Beispielen durch manuelles 
Suchen kann dazu führen, dass diese Beispiele immer von einigen Autor*innen 
stammen, während die neutralen Äußerungen von anderen Autor*innen stammen. 
Das kann sogar darin münden, dass ein Klassifikationssystem letztlich eine 
Autorenerkennung durchführt. Eine solche Erkennung des individuellen Stils 
erkennt dann evtl. ganz andere Merkmale und ist nicht in der Lage, in einer realen 
Umgebung eine gute Erkennungsqualität für Hassbotschaften zu liefern (Arango 
et al., 2020). Deswegen sollten von jedem Profil in sozialen Netzwerken immer 
mehrere Posts gesammelt werden, um pro Autor*in Beispiele für problematische 
und unproblematische Inhalte einzubauen. Dies wurde z.B. im Rahmen von 
GermEval berücksichtigt (Struß et al., 2019). 

Verzerrungen können auch beim technologischen Sammeln der Inhalte ent- 
stehen. Tools zur Suche oder die APIs für den Zugriff mit Programmierwerk- 
zeugen können schon in den Plattformen Präferenzen für bestimmte Inhalte 
abbilden, die unerkannt bleiben. Retrieval-Systeme sind beispielsweise anfällig 
für die Länge von Texten als versteckter Einflussfaktor (Roelleke, 2013). In 
sozialen Netzwerken könnten Beiträge populärer Nutzer*innen bevorzugt werden 
oder andere Ranking-Kriterien implementiert sein. Selbst wenn die Strategien 
genau aufgezeichnet würden, könnten die erzielten Mengen nicht nachvollzogen 
werden, da z. B. die Twitter-Suche zu jedem Zeitpunkt andere, aktuellere und 
vielleicht auch personalisierte Ergebnisse liefert. Zudem können intern schon 
Methoden eingebaut sein, die problematische Inhalte detektieren und ihnen 
niedrige Ranking-Positionen zuweisen oder dafür sorgen, solche Inhalte weniger 
häufig anzuzeigen. 

Eine wichtige Frage bei der Erstellung von Benchmarks ist auch der Umfang 
bzw. Anteil der jeweiligen Klassen. Es ist davon auszugehen, dass Hate Speech in 
realer Kommunikation weniger als 1 % der Inhalte ausmacht. Bei einer Zufalls- 
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auswahl und Annotation dieser Daten weisen Analysen darauf hin, dass Werte in 
dieser Größenordnung zu erwarten sind (Vidgen & Derczynski, 2020). 

Alle Trainingsmengen weisen jedoch deutlich höhere Anteile auf, da es 
schwierig ist, mit nur einem geringen Anteil von Beispielen eine Klassifikation zu 
trainieren. Zudem liefern die Algorithmen bessere Ergebnisse, wenn die Klassen 
vergleichbar oft vorkommen. Aus dieser Perspektive spiegeln die Trainings- 
mengen in keiner Weise die Realität wider. 

Auch in der letzten Phase, der Annotation der identifizierten Menge von 
Inhalten durch Menschen, können Schwierigkeiten auftreten. Die unvermeidbare 
Subjektivität wird im folgenden Abschnitt behandelt. Jedoch alleine die Richt- 
linien für die Annotation, welche den Menschen mitgegeben werden, variieren 
sehr stark. Es stellt sich die Frage, inwiefern hier überhaupt die gleiche Aufgabe 
bearbeitet wird. Bestehende Annotations-Guidelines nennen allein schon so ver- 
schiedene Überbegriffe wie Hate, Open or Covert Aggression, Toxicity, Racism, 
Obscene und Inappropriate. In dieser Vielfalt und Unschärfe spiegelt sich die 
Schwierigkeit, Hate Speech klar zu definieren. Diese verschiedenen Konzepte 
vergleichen Fortuna und Kollegen ausführlich (Fortuna et al., 2020). In Zukunft 
sollte intensiver erforscht werden, wie diese heterogenen Definitionen sinnvoll 
zur Erkennung von Hate Speech beitragen können. 


5 Messung von Verzerrungen 


Die Zuverlässigkeit von Datensets kann mit einigen Methoden überprüft werden. 
Die Sprachmodelle der Trainingsmenge sowie gegebenenfalls auch der Test- 
menge können untereinander und mit dem allgemeinen Sprachmodell im Korpus 
verglichen werden. Dazu kann z.B. das Maß Mutual Information eingesetzt 
werden. Es wurde schon beobachtet, dass bestimmte Begriffe in den Hate- 
Korpora häufiger vorkommen als allgemein. Dies führt teils zu guten Klassi- 
fikationsergebnissen bei der Entwicklung (Wiegand et al., 2019), die aber unter 
realen Einsatzbedingungen nicht erreicht werden. 

Mit dem Ansatz des Topic Modeling kann überprüft werden, ob die gleichen 
Themen auch ähnlich häufig auftreten. Für HASOC 2019 konnte für das 
Englische ein Topic Model aus vier Themen identifiziert werden. Es zeigte sich, 
dass diese Themen sowohl in der Trainings- als auch der Testmenge über die 
problematischen Inhalte und die unproblematischen Inhalte relativ gleichmäßig 
repräsentiert waren. Diese Verteilung zeigt Abb.2. Für Systeme reichte es 
also nicht aus, lediglich ein Thema zu erkennen, zu dem immer hasserfüllt 
kommentiert wurde. 
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Abb.2 Die Verteilung von vier Topics in Test- und Trainingsmenge aus HASOC 2019 


Auch ein zu hoher Anteil an politisch extrem rechten oder extrem linken Posts 
in der Trainingsmenge kann in einer geringeren Genauigkeit bei der Erkennung 
resultieren (Wich et al., 2020). 

Nach oder während der Annotation kann die interne Validität überprüft 
werden. Dazu können einige Texte mehrfach von verschiedenen Personen 
annotiert werden, was natürlich den Aufwand und die Kosten erhöht. Das 
sogenannte Interrater Agreement zeigt an, inwieweit die Bewertungen überein- 
stimmen. Niedrige Werte weisen darauf hin, dass die Annotation sehr subjektiv 
geprägt ist. 

Annotationseffekte entstehen aber auch durch den Rahmen der Präsentation 
(Voorhees, 2000). Wer als Annotator*in schon zahlreiche hasserfüllte Botschaften 
gesehen hat, wird bei Grenzfällen etwas weniger streng. Einen Bezug zu demo- 
graphischen Faktoren bei den Annotierenden versuchen Al Kuwatly et al. (2020) 
herzustellen. Weitere Studien haben gezeigt, dass Vertrautheit mit Sprachregistern 
starken Einfluss auf Annotationsentscheidungen hat (Sap et al., 2019). 

Die Übereinstimmung von vier Annotierenden bei GermEval wurde für ein 
Sample von 300 Tweets gemessen und erreichte einen Kappa-Wert von 0,59, was 
als moderate agreement gilt (Struß et al., 2019). Hier zeigt sich, wie schwierig 
selbst das Finden gemeinsamer Maßstäbe ist. 

Für HASOC 2019 wurde anhand der zweimal annotierten Tweets die Überein- 
stimmung der Annotator*innen gemessen. Tab. 2 zeigt, dass sie für die zweite 
Task mit der genaueren Einteilung von problematischen Inhalten sinkt. Eine Ana- 
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Tab.2 Interrater-Statistik für HASOC 2019 


Anzahl der zweimal annotierten Tweets |Interrater Agreement 
English sub-task 1 15389 [i % 
‘English sub-task 2 | 5389 64 % 
Hindi sub task 1 4122 80 % 
Hindi sub task2 |4122 | 62 % 
German sub task 1 | 1159 | 88 % 
German sub task 2 | 1159 | 86 % 


lyse von Ross et al. (2016) konnte sogar zeigen, dass selbst schriftliche Richt- 
linien keinen hohen Einfluss auf die Übereinstimmung zwischen Annotierenden 
haben. 

Grenzfälle, die sich schwer einordnen lassen, weisen eine deutlich höhere 
Abweichung auf (Salminen et al., 2019). Dies bedeutet, dass ein gutes Interrater 
Agreement auch bedeuten kann, dass lediglich sehr klare Fälle in der annotierten 
Menge vorkommen. Die Häufigkeit von solchen Grenzfällen im Graubereich 
in den gesammelten Daten ist vorab ja nicht bekannt und lässt sich auch nicht 
steuern. Wenige oder unsicher bewertete Grenzfälle können es den Algorithmen 
danach allerdings zusätzlich erschweren, die Grenze deutlich zu ziehen. 
Somit muss selbst das Interrater Agreement als Qualitätsmerkmal auch hinter- 
fragt werden. Das Vorgehen bei Fällen im Graubereich oder bei abweichenden 
Meinungen von Annotator*innen wird nicht einheitlich gehandhabt. 


6 Transfer über Kollektionen hinweg 


Die Genauigkeit der Vorhersage von Hate Speech variiert meist stark je nach 
Datenmenge. Dies weist auf die Bedeutung der Trainingsdaten hin. Für einen 
realen Einsatz ist natürlich viel wichtiger, wie gut ein System bei völlig anderen 
Daten unter echten Bedingungen funktioniert. Dann stellt sich die Frage, ob die 
Systeme aus der Forschung robust genug für einen Dauerbetrieb wären. Dies 
lässt sich transparent und mit Daten, die außerhalb von kommerziellen Platt- 
formen zur Verfügung stehen, nur schwer überprüfen. Als gängigste Methode 
wird hierfür mit den Trainingsdaten eines Benchmarks ein Modell trainiert und 
dann mit den Testdaten anderer Benchmarks getestet. So kann die Messung des 
möglichen Bias durch Experimente über mehrere Datensets hinweg erfolgen. 
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Wenn ein Klassifikationssystem mit einer Menge trainiert wird und dann auf 
eine andere angewendet wird, zeigt sich zu einem gewissen Maß, ob diese das 
gleiche Konzept abbilden bzw. Verzerrungen in den Daten vorliegen. Die bis- 
herigen Ergebnisse bei solchen Cross-Validitäts-Studien zeigen, dass teils deut- 
lich niedrigere Trefferquoten erzielt werden (Wiegand et al., 2019). 

Die umfangreichen Experimente von Fortuna etal. (2021) zeigen, dass die 
Performanz für einen Datensatz um über 30 % Genauigkeit schwanken kann, je 
nachdem mit welchem anderen Datensatz trainiert wurde. Gründe hierfür und 
mögliche Lösungsansätze werden in einem Überblicksaufsatz diskutiert (Yin & 
Zubiaga, 2021). 


7 Erklärbarkeit und Nachvollziehbarkeit 


Ein häufig genanntes Problem von Künstlicher Intelligenz und insbesondere von 
mächtigen Deep Learning-Verfahren besteht in der mangelnden Nachvollziehbar- 
keit der Entscheidungen. Diese Verfahren können ihre Ergebnisse nicht erklären 
und sehen sich daher dem Vorwurf der fehlenden Transparenz ausgesetzt. 
Ein eigener Forschungszweig unter der Bezeichnung Explainable Artificial 
Intelligence (XAI) befasst sich mit Möglichkeiten, solche Erklärungen zu 
generieren und Systeme oder ihre Entscheidungen besser verständlich zu machen. 
Ein Überblick über das Thema zeigt, dass es gerade für die Erklärung von Ent- 
scheidungen für die Textklassifikation im Vergleich zur Bilderkennung nur sehr 
wenige Ansätze gibt (Guidotti et al., 2018). 

Vor allem zählen dazu die Verfahren Shapley Values und Local Interpretable 
Model-Agnostic Explanations (LIME). Sie setzen beide nach der Erstellung eines 
Modells an und versuchen, nachträglich den Beitrag von Wörtern zu einer Ent- 
scheidung zu messen und darzustellen. Für Hate Speech wurde LIME beispiels- 
weise von Mahajan et al. (2021) umgesetzt. 

Auch hier stellt sich die Frage, ob es wirklich darum gehen kann, die Ver- 
fahren des maschinellen Lernens an sich transparent darzustellen, oder ob nicht 
eine Offenlegung der Trainingsdaten etwa anhand von Beispielen einen besseren 
Eindruck von einem KI-System zur Hate-Speech-Erkennung liefert. Wenn bei- 
spielsweise verdeutlicht werden kann, dass zu einem Tweet keine ähnlichen 
Trainingsbeispiele vorliegen, könnten Nutzer*innen besser verstehen, dass 
das System gar nicht in der Lage ist, eine gute Entscheidung zu treffen. Somit 
könnten Ansätze zur Sicherung der Transparenz auch ein Mittel sein, Rück- 
schlüsse auf die Qualität der Trainingsdaten zu erlauben. 
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Die meisten Systeme mit Ansätzen zur Erklärbarkeit gehen allerdings noch 
anders vor und bedienen meist sehr heterogene Nutzungsszenarien. Das System 
von Modha etal. (2020) erlaubt es, mit einem Browser-Plugin einen Account in 
sozialen Medien zu überwachen. Andere Systeme zielen auf die Überwachung 
ganzer Plattformen ab. So schlägt etwa Bunde (2021) ein Dashboard vor, das 
einzelne Beiträge präsentiert, die Entscheidungen dazu erklärt und auch die 
Aktivitäten von einzelnen Nutzer*innen überwacht. Das System Hatemeter 
möchte Moderator*innen Hilfestellung geben, indem es aktuelle Themen dar- 
stellt, die besonders viel Hassrede auf sich ziehen (Laurent, 2020). 

Einen anderen Ansatz verfolgt das System von Sontheimer et al. (2022). Es 
unterstützt die Informationelle Autonomie von Biirger*innen und lässt sie mit 
den aktuellsten Algorithmen online experimentieren. Die Nutzer*innen können in 
dem System kurze Nachrichten eingeben und bevor sie in einer Plattform hoch- 
geladen werden, prüfen lassen, ob ein System zur Hate-Speech-Klassifikation 
diese als problematisch einstuft. Dadurch soll nicht primär das Verständnis 
von Algorithmen gefördert werden, sondern durch ähnliche Beispiele und die 
Möglichkeit des Ausprobierens wird ein Erkennen der Wirksamkeit des Systems 
verdeutlicht. 


8 Fazit und Ausblick 


Ziel der Hate-Speech-Erkennung ist das Training robuster Verfahren, die auch im 
realen Einsatz erfolgreich sind. Die Gestaltung von Trainingsmengen entscheidet 
über die Leistungsfähigkeit von KI-Algorithmen. Diese sind zwar intransparent, 
aber die Gestaltung der Trainingsdaten spielt womöglich eine noch bedeutendere 
Rolle bei der Feinjustierung der Algorithmen. Somit ist ein transparenter Einblick 
in diese Daten und den Erstellungsprozess sehr wichtig und kann zur Durch- 
schaubarkeit mehr beitragen als die Nachvollziehbarkeit von Algorithmen. 

Zur Messung der Qualität von Trainingsdaten gibt es derzeit keine über- 
zeugenden Methoden und gleichzeitig entstehen leicht Verzerrungen durch das 
Vorgehen beim Sammeln, Auswählen oder Annotieren. Deutlich mehr ver- 
gleichende Forschung zu Methoden der Erstellung wäre notwendig. Diese 
Forschung sollte nicht nur hinter den verschlossenen Türen der Internet-Platt- 
formen stattfinden, sondern in offenen Foren. Nur so kann die Leistungsfähig- 
keit der Algorithmen angemessen diskutiert und eine breite gesellschaftliche 
Akzeptanz erzielt werden. 
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Emotionsklassifikation in Texten unter 
Berücksichtigung des 
Komponentenprozessmodells 


Roman Klinger 


1 Einleitung 


Die Emotionsanalyse in Text verknüpft die Forschung des Affective Computing 
(Picard, 1997) mit der maschinellen Verarbeitung von Sprache (Computerlinguis- 
tik/Natural Language Processing — CL/NLP). Hierbei wird im Gegensatz zu dem 
Feld der Informationsextraktion (Sarawagi, 2008) weniger in den Mittelpunkt 
gestellt, was im Text ausgedrückt wird, sondern eher wie etwas wahrgenommen 
wird, also welche emotionale Konnotation mittransportiert wird. Dies kann sich auf 
die konkreten Nennungen von Emotionen im Text (zum Beispiel wie eine Figur in 
einem Buch ein bestimmtes Ereignis empfindet) oder auch auf Schlussfolgerungen 
über die Emotionen eines Autors eines Texts (zum Beispiel wie sich eine Nutzerin 
sozialer Medien beim Schreiben eines Tweets gefühlt hat) beziehen. Der erstge- 
nannte Fall bewegt sich an der Schnittstelle zur Informationsextraktion, wobei der 
zweitgenannte Fall in den Bereich des Author Profiling (Rosso et al., 2018) fällt. 
In der NLP haben sich einige Kernaufgaben im Bereich der Emotionsanalyse 
herauskristallisiert. Dies ist zum einen die Erkennung von semantischen Rollen im 
Kontext von Emotionen, also wer fühlt was und warum (Kim & Klinger, 2018; 
Mohammad et al., 2014), mit einem weiteren Schwerpunkt auf die Erkennung der 
Emotionsursache (Xia & Ding, 2019; Oberländer & Klinger, 2020). Zum anderen, 
vielleicht die Hauptaufgabe der Emotionsanalyse, ist dies die Emotionsklassifika- 
tion (oder Regression), bei der Texten (Sätzen, Tweets, Absätze...) Emotionsklassen 
oder Intensitätswerte zugewiesen werden. Diese Aufgaben sind mit der Analyse von 
Hassrede verwandt — Emotionen werden von einer Ursache ausgelöst und können 
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ein Ziel haben, dies sind auch wichtige Bestandteile bei der Äußerung von Hass- 
rede. Tatsächlich wurde bereits gezeigt, dass maschinelle Lernverfahren, welche 
Hassrede vorhersagen, von einer gemeinsamen Modellierung profitieren (Plaza-del- 
Arco et al., 2021; Rajamanickam et al., 2020). Dieser Aspekt stellt eine wichtige 
Motivation dar, der Emotionsanalyse auch im Kontext der Analyse von Hassrede 
Aufmerksamkeit zu schenken. Die bestehenden Ansätze, Hassrede und Emotions- 
analyse in komputationellen Modellen zu integrieren, bauen nur in Ansätzen auf 
dem umfangreichen Wissen auf, welches in der Psychologie zu der Struktur, dem 
Zweck, und dem Ausdruck von Emotionen bekannt ist. Somit ist dieses Kapitel 
auch als ein Vorschlag zu verstehen, das vorhandende Wissen über Emotionen in 
der Psychologie und allgemeinen Ansätzen in der Emotionsanalyse auf den spe- 
zielleren Fall von Hassrede zu übertragen. Dies kann potentiell zu einer höheren 
Genauigkeit automatischer Systeme, aber vor allem zu einer größeren Abdeckung 
führen. 

Selbstverständlich berührt das Feld der Emotionsanalyse in Text auch die Emoti- 
onspsychologie. Hierbei werden insbesondere Emotionskonzepte „importiert“, also 
Kategorien, welche als relevant erachtet werden, zur Klassifikation herangezogen. 
Wir betrachten in diesem Kapitel genau diese Aufgabe der Zuweisung von vorge- 
fertigten Emotionskategorien zu gegebenen Textabschnitten. Übliche Emotionska- 
tegorien umfassen solche, wie sie aus den Theorien von Paul Ekman (1992) folgen, 
nämlich Wut, Freude, Ekel, Angst, Traurigkeit und Überraschung, oder von Robert 
Plutchik (2001), der neben Intensitätsabstufungen noch Vertrauen und Antizipation 
als sogenannte Basisemotionen vorschlägt. Häufig wird die Klassifizierung von 
Emotionen als eine durchgängige Lernaufgabe verstanden („Ende-zu-Ende“), die 
möglicherweise durch lexikalische Ressourcen unterstützt wird (siehe die SemEval 
Shared Task 1 zu „Affect in Tweets“ für einen Überblick über aktuelle Ansätze, 
Mohammad et al., 2018). Die Information, was eine Emotion ausmacht, liegt somit 
alleine in den Daten, welche auf Basis von Beispielen die Emotionskonzepte nutz- 
bar machen. Während dieses Ende-zu-Ende-Lernen und die Feinabstimmung von 
vortrainierten Modellen für die Klassifikation große Leistungsverbesserungen im 
Vergleich zu rein merkmalsbasierten Methoden oder wörterbuchbasierten Verfahren 
gezeigt hat, vernachlässigen solche Ansätze typischerweise allerdings das vorhan- 
dene Wissen über Emotionen in der Psychologie. Es gibt nur sehr wenige Ansätze, 
die darauf abzielen, psychologische Theorien (über grundlegende Emotionskatego- 
rien hinaus) mit Emotionsklassifikationsmodellen zu kombinieren. Als bemerkens- 
werte Ausnahmen sind solche Arbeiten zu nennen, die das Konzept von Affekt inden 
Mittelpunkt stellen, das durch die Kombination von Valenz und Arousal gemessen 
werden kann (Buechel & Hahn, 2017b; Buechel et al., 2021). Dies gilt auch für die 
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oben genannten Arbeiten, welche Emotionsanalyse und Hassrede zusammenbrin- 
gen — sie modellieren Emotionen auf Basis einer diskreten Menge von Kategorien. 

Nun können Emotionen aber unterschiedlich ausgedrückt werden. In diesem 
Kapitel stellen wir eine Analyse auf Basis der Appraisaltheorien und des Emotions- 
Komponentenmodells von Scherer vor, welche folgende Definition von Emotionen 
enthalten (frei übersetzt): Emotionen sind ein synchronisierter Prozess verschie- 
dener Teilsysteme, in Reaktion auf ein relevantes Ereignis (Scherer et al., 2001; 
Scherer, 2005). Diese Teilsysteme sind eine Motivationskomponente, der Ausdruck, 
die neurophysiologische körperliche Reaktion, das subjektive Gefühl und die kogni- 
tive Bewertung. Dieser Prozess folgt der Wahrnehmung von relevanten Ereignissen. 
Wir nehmen daher an, dass alleine Ereignisbeschreibungen für die Kommunikation 
von Ereignissen ausreichend sind, da die Leser:in dieser Beschreibung empathisch 
fähig sind, die Emotionen der Teilnehmenden eines Ereignisses zu rekonstruieren. 
Dies ist auch für Hassrede relevant — ein wiederkehrender Bestandteil dieser ist der 
Aufruf zu Taten. Um diese bezüglich ihrer (emotionalen) Wahrnehmung einzuord- 
nen, dürften Appraisaltheorien ein sinnvolles Werkzeug sein. 

In Abschn. 3 werden wir zunächst untersuchen, ob sich Emotionsbeschreibun- 
gen in sozialen Medien tatsächlich solchen Emotionskomponenten zuweisen lassen, 
und vergleichen die Verteilung dieser Komponenten mit einer anderen Domäne, 
nämlich der Literatur. In Abschn. 4 schlagen wir weiterhin vor, spezifisch die Kom- 
ponente des kognitiven Appraisal zu nutzen, um Emotionen von Ereignisbeschrei- 
bungen aus Text zu extrahieren. Die Haupterkenntnisse dieses Kapitels sind, dass 
die Modellierung von Emotionskomponenten tatsächlich Aufschluss über die Art 
der Emotionskommunikation erlaubt und des Weiteren in einem Großteil der Texte 
eine kognitive Evaluierung (Appraisal) zur Interpretation der Emotion notwendig 
ist. Diese Modellierung führt weiterhin zu einer Verbesserung der Emotionsklas- 
sifikation in den gegebenen Korpora. Die hier vorgestellten Arbeiten basieren auf 
bereits erschienenen Publikationen (Casel et al., 2021; Hofmann et al., 2020, 2021). 
Die zugrunde liegenden Daten können auf der Internetseite https://www.ims.uni- 
stuttgart.de/data/emotion heruntergeladen werden. 


2 Hintergrund 
2.1 Emotionsmodelle in der Psychologie 
Als Bestandteil des menschlichen Lebens sind Emotionen in der Psychologie einge- 


hend untersucht worden. Sie werden allgemein als Reaktionen auf wichtige Ereig- 
nisse interpretiert. Die Debatten um ihre Definition haben jedoch (bisher) nie zu 
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einem eindeutigen Konsens geführt, sodass eine vielfältige Literatur zu diesem 
Thema existiert. Dies hat Auswirkungen auf die computergestützte Emotionsana- 
lyse (in Texten, aber auch darüber hinaus), welche aus einer großen Vielfalt der 
verfügbaren psychologischen Theorien auswählen kann (Scarantino, 2008). 

Einige dieser Theorien konzentrieren sich auf die evolutionäre Funktion von 
Emotionen, und dementsprechend auf ihre Verknüpfung mit Handlungen (Izard, 
1971; Tooby & Cosmides, 2008). Der Kerngedanke ist, dass Emotionen dem Men- 
schen helfen, alltägliche Aufgaben zu bewältigen und sozial relevante Informatio- 
nen zu kommunizieren, indem sie spezifische physiologische Symptome auslösen. 
Insbesondere gibt es Verhaltensmuster (z.B. Lächeln), die diskrete Emotionsbe- 
griffe widerspiegeln (z. B. Freude), was darauf hindeutet, dass emotionale Zustände 
anhand einiger Kategorien der natürlichen Sprache gruppiert werden können. Eine 
der populärsten Quellen für eine Reihe von grundlegenden Emotionen ist die Theorie 
von Paul Ekman (1992). Ekman untersuchte die Beziehung zwischen Emotionen und 
Kultur und betrachtete hierbei insbesondere beobachtbare Kriterien, unter anderem 
Gesichtsausdrücke. Er behauptete, dass die Gruppe der grundlegenden Emotionen, 
nämlich Angst, Ekel, Wut, Freude, Traurigkeit und Überraschung, Gesichtsmus- 
kelbewegungen kulturübergreifend unterscheiden lasse (was heutzutage teilweise 
angezweifelt wird (Gendron et al., 2014)). Als Ergänzung dieses Modells geht 
Robert Plutchik explizit von der Annahme aus, dass verschiedene Grundemotio- 
nen gemeinsam auftreten können, zum Beispiel Vertrauen und Freude, was der Fall 
sei, wenn Liebe erlebt werde (Plutchik, 2001). Solche Emotionsmischungen sowie 
ein Gegensatz zwischen Angst und Furcht, Freude und Traurigkeit, Überraschung 
und Antizipation, Vertrauen und Abscheu, wurden des Weiteren in dieses Modell 
aufgenommen. In der automatischen Verarbeitung natürlicher Sprache wird meist 
eine Menge von vier bis acht grundlegenden Emotionen verwendet, wobei Angst, 
Wut, Freude und Traurigkeit von den meisten Ansätzen geteilt werden (es existie- 
ren aber auch Ausnahmen, die eine größere Zahl von Kategorien betrachten, zum 
Beispiel von Abdul-Mageed & Ungar, 2017). 

Ein wichtiger Bestandteil von Emotionen ist ihr prozeduraler, synchronisier- 
ter Charakter. Während bereits Ekman die Reaktion auf ein relevantes Ereignis 
als konstituierendes Merkmal von Basisemotionen nennt, wird dieser Aspekt von 
Klaus Scherer noch stärker in den Mittelpunkt gerückt (Scherer, 2005). Er definiert 
Embotionen als eine 


„Episode zusammenhängender, synchronisierter Veränderungen in den Zuständen aller 
oder der meisten der fünf organismischen Subsysteme als Reaktion auf die Bewertung 
eines externen oder internen Stimulusereignisses, welches als relevant für wichtige 
Belange des Organismus erkannt wird“ (Übersetzung durch den Autor dieses Kapitels). 
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Die fünf Komponenten sind die kognitive Bewertung, neurophysiologische körperli- 
che Symptome, motorische Ausdrücke, motivationale Handlungstendenzen, und sub- 
Jektive Gefühle. Die Kognitive Bewertung (Appraisal) befasst sich mit der Bewertung 
eines Ereignisses. Wir werden diese fünf Teilsysteme in Abschn. 3 genauer betrach- 
ten. Hier sei zunächst festgehalten, dass der Affekt, welcher durch Valenz, Arousal 
und (in der NLP nur gelegentlich) durch die Dominanz (kurz: VAD) des Erlebten 
gemessen werden kann, eine Alternative zu diskreten Emotionsmodellen darstellt. 
Solche dimensionalen Modelle stellen Vektorräume dar, in denen sich verschiedene 
Embotionen als Punkte wiederfinden (Russell & Mehrabian, 1977). 

Eine aussagekräftigere, ebenfalls dimensionale, Alternative zum VAD-Modell ist 
durch den kognitiven Bewertungsprozess (Appraisal) motiviert, der Teil der Emotio- 
nen ist. Das Modell von Smith und Ellsworth (1985) führt eine Reihe von Variablen 
ein, und zwar wie angenehm eine Situation ist, ob man sich verantwortlich dafür 
fühlt, was geschieht, die Gewissheit, was geschieht, die notwendige Anstrengung 
mit der Situation umzugehen und die situative Kontrolle der die Emotion wahr- 
nehmenden Person. Smith und Ellsworth zeigen, dass diese Dimensionen besser 
geeignet sind, um Emotionskategorien zu unterscheiden, als VAD. Dieses Modell 
betrachten wir in Abschn. 4 etwas genauer. 


2.2 Emotionsklassifikation 


Bisherige Arbeiten zur Emotionsanalyse in der NLP konzentrieren sich entweder 
auf die Erstellung von Ressourcen oder auf die Klassifizierung von Emotionen 
für eine spezifische Aufgabe und Domäne. Auf der Seite der Ressourcenerstellung 
ist die frühe und einflussreiche Arbeit von Pennebaker et al. (2001) zu nennen, 
nämlich die Erstellung eines Wörterbuchs, in dem die Einträge mit verschiede- 
nen psychologisch relevanten Kategorien verknüpft werden, einschließlich einer 
Untergruppe von Emotionen. Strapparava und Valitutti machten WordNet Affect 
verfügbar, um Wörter mit ihrer emotionalen Konnotation zu verknüpfen (Strappa- 
rava & Valitutti, 2004). Mohammad veröffentlichte das NRC-Wörterbuch mit mehr 
als 14.000 Wörtern für eine Reihe von diskreten Emotionsklassen und ein Valenz- 
Arousal-Dominanz-Wörterbuch (Mohammad & Turney, 2012; Mohammad, 2018). 
Büchel et al. haben einen methodischen Rahmen entwickelt, um bestehende Affekt- 
lexika an spezifische Anwendungsfälle anzupassen (Buechel et al., 2016). 

Für die Evaluation und die Entwicklung von Modellen mit Hilfe von maschi- 
nellem Lernen steht mittlerweile auch eine große Zahl von annotierten Korpora 
zur Verfügung. Einige von ihnen enthalten Informationen zu Valenz und Arousal 
(Buechel & Hahn, 2017a; Preotiuc-Pietro et al., 2016), die Mehrheit verwendet 
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jedoch diskrete Emotionsklassen, zum Beispiel zur Kennzeichnung von Märchen 
(Alm et al., 2005), Blogs (Aman & Szpakowicz, 2007), Tweets (Mohammad et al., 
2017; Schuff et al., 2017; Mohammad, 2012; Mohammad & Bravo-Marquez, 2017; 
Klinger et al., 2018), Facebook-Posts (Preotiuc-Pietro et al., 2016), Nachrichten- 
Schlagzeilen (Strapparava & Mihalcea, 2007), Dialogen (Li et al., 2017), literari- 
schen Texten (Kim et al., 2017) oder Selbstberichten über emotionale Ereignisse 
(Scherer & Wallbott, 1997; Troiano et al., 2019). Wir verweisen die Leser:innen 
auf unseren Überblickartikel für einen umfassenden Vergleich (Bostan & Klinger, 
2018). 

Die meisten automatischen Methoden, die Textabschnitten Annotationen zuwei- 
sen, basieren auf maschinellem Lernen (Alm et al., 2005; Aman & Szpakowicz, 
2007; Schuff et al., 2017, u.a.). Neuere Systeme basieren häufig auf Transferlernen 
auf Basis von generischen Repräsentationen (Klinger et al., 2018; Mohammad & 
Bravo-Marquez, 2017; Mohammad et al., 2018. Felbo et al. (2017) schlug z.B. vor, 
Emoji-Repräsentationen zu nutzen, um Modelle vorzutrainieren. Cevher trainierte 
erst mit existierenden Korpora und dann mit Daten einer spezifischen Domäne, für 
die nur wenige Trainingsdaten verfügbar waren (Cevher et al., 2019). 

Diese Arbeiten weisen Emotionskategorien oder Affektwerte von Valenz und 
Arousal zu. In diesem Kapitel beschäftigen wir uns mit Emotionskomponenten und 
Appraisalannotationen, um nicht nur die wahrgenommene oder ausgedrückte Emo- 
tion zu charakterisieren, sondern auch ein Verständnis zu entwickeln, wie diese 
ausgedrückt wird. Uns ist nur eine damit verwandte Studie bekannt, die Bewer- 
tungsdimensionen zur Verbesserung der Emotionsvorhersage berücksichtigt (Cam- 
pero et al., 2017). In dieser Studie annotierten Probanden 200 Geschichten mit 38 
Bewertungsmerkmalen, um zu bewerten, ob eine textbasierte Repräsentation eine 
fMRI'-basierte Klassifizierung ergänzt. Abgesehen von dieser Studie haben alle 
bisherigen maschinellen Ansätze dies ohne Zugang zu Appraisaldimensionen oder 
Komponenten getan. Nur in einigen wenigen Arbeiten wurden kognitive Kompo- 
nenten einbezogen, die aus dem OCC-Modell stammen (benannt nach den Initialen 
der Autoren Ortony, Clore und Collins, Clore & Ortony, 2013). Auf der Grundlage 
des OCC-Modells entwickelte Shaikh et al. (2009) einen regelbasierten Ansatz zur 
Textinterpretation. Eine weitere verwandte Arbeit ist die von Alexandra Balahur 
erstellte Datenbank EmotiNet, welche Handlungsfolgen enthält, die zu bestimmten 
Embotionen führen. Sie modelliert zwar nicht Appraisal an sich, nutzt diese aber zur 
Motivation der Verknüpfung von Ereignissen mit Emotionen. 


! functional Magnetic Resonance Imaging“, also ein bildgebendes Verfahren, welches 
Gehirnaktivität abbildet. 
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Die einzige uns bekannte Arbeit, die Emotionskomponenten untersucht (aller- 
dings nicht nach dem Emotionskomponenten-Prozessmodell und ohne computer- 
gestützte Modellierung), ist eine Korpus-Studie von Fan-Fiction (Kim & Klinger, 
2019). Sie analysiert, ob Emotionen über Gesichtsbeschreibungen, Körperhaltungs- 
beschreibungen, das Aussehen, den Blick, die Stimme, Gesten, subjektive Emp- 
findungen oder räumliche Beziehungen der Figuren kommuniziert werden. Dieser 
Satz von Variablen ist nicht identisch mit den Emotionskomponenten, aber er ist ver- 
wandt. Die Autoren stellen fest, dass einige Emotionen bevorzugt mit bestimmten 
Aspekten beschrieben werden. Motiviert wurde diese Arbeit durch eine linguisti- 
sche Literaturstudie (van Meel, 1995). 

Im Gegensatz zu ihrer Arbeit vergleicht unsere Studie zwei verschiedene Domä- 
nen (Tweets und Literatur) und folgt dem Prozessmodell der Emotionskomponenten 
genauer. Außerdem zeigen wir die Verwendung dieses Modells für computerge- 
stützte Emotionsklassifikation durch Multi-Task-Lernen und schlagen ein auf die 
Appraisalkomponente fokussiertes dimensionales Modell vor. 


3 Die Emotionskomponenten in Sozialen Medien im 
Vergleich zu Literarischen Texten? 


In diesem Abschnitt untersuchen wir, wie Nutzer:innen von Twitter Emotionen 
beschreiben und vergleichen dies mit Autor:innen von literarischen Texten. Hierzu 
ordnen wir Instanzen existierender Emotionskorpora in die verschiedenen Kom- 
ponenten ein und untersuchen das entstehende Korpus statistisch und nutzen die 
verschiedenen Annotationen gemeinsam in einem Modell des maschinellen Ler- 
nens. 

Die betrachteten Komponenten von Emotionen sind die kognitive Bewertung, 
neurophysiologische körperliche Symptome, der Ausdruck, motivationale Hand- 
lungstendenzen und das subjektive Gefühl. Die kognitive Bewertung (Appraisal) 
befasst sich mit der Bewertung eines Ereignisses. Das Ereignis wird im Hinblick 
auf seine Relevanz für das Individuum, die Implikationen und die Konsequenzen, 
zu denen es führen könnte, die möglichen Wege zu Möglichkeiten, es zu bewältigen 
und zu kontrollieren, und seine Bedeutung nach persönlichen Werten und sozia- 
len Normen charakterisiert. Die Komponente der neurophysiologischen Symptome 
betrifft automatisch aktivierte Reaktionen und Symptome des Körpers wie Verände- 
rungen des Herzschlags oder des Atemmusters. Die Komponente des motorischen 
Ausdrucks enthält alle Bewegungen, Gesichtsausdrücke, Veränderungen in der Spra- 


? Dieser Abschnitt basiert auf Casel et al. (2021). 
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che und ähnliche Muster. Handlungen wie Aufmerksamkeitsverschiebungen und 
Bewegungen in Bezug auf den Ort des Geschehens sind Teil der motivationale- 
Handlungstendenzen-Komponente. Schließlich berücksichtigt die Komponente der 
subjektiven Gefühle, wie stark, wichtig und anhaltend die Empfindungen sind. Sche- 
rer (2005) argumentiert, dass es möglich sei, auf die Emotion, die eine Person erlebt, 
durch die Analyse der Veränderungen in den fünf Komponenten Rückschlüsse zu 
ziehen. Er weist auch darauf hin, dass Computermodelle die Emotionskomponenten 
nicht ignorieren dürfen (Scherer, 2009). 

Wir nehmen im Folgenden an, dass Emotionen in Texten in einer Art kom- 
muniziert werden, welche den Komponenten folgt. Dies sind Alternativen zu der 
direkten Nennung des Emotionskonzepts („Ich bin wütend.“). Beispiele sind „Er 
wollte weglaufen.“, womit die Motivation beschrieben wird, „Sie lächelte.“, womit 
der Ausdruck beschrieben wird, „Sie zitterte.‘‘, was eine Emotion beschreiben kann, 
indem die Körperreaktion erklärt wird, „Ich fühle mich schlecht.“, womit das sub- 
jektive Gefühl genannt wird, oder „Ich bin unsicher, was geschehen ist.“ , womit eine 
kognitive Bewertung der Situation beschrieben wird und damit bei den Lesenden 
die Notwendigkeit besteht diese zu interpretieren, um zu verstehen, welche Emotion 
der/die Autor:in meint. 


3.1 Korpusannotation 


Wir nutzen zwei verschiedene englischsprachige Korpora unterschiedlicher Domä- 
nen für unsere Studie. In diesen Korpora werden wir die Verwendung verschiedener 
Emotionskomponenten untersuchen. Für die Analyse von Literatur verwenden wir 
das REMAN-Korpus, welches Texte aus dem Projekt Gutenberg enthält. Dieses 
Korpus ist bereits mit den Emotionen Wut, Angst, Vertrauen, Ekel, Freude, Traurig- 
keit, Überraschung und Antizipation sowie „Andere Emotion“ annotiert. Von den 
1720 Instanzen annotieren wir 1000 zufällig ausgewählte Instanzen. Zur Analyse 
von sozialen Medien nutzen wir das Twitter Emotion Corpus (TEC) (Mohammad, 
2012). Die Emotionskategorien sind Wut, Ekel, Angst, Freude, Traurigkeit und 
Überraschung. TEC enthält 21.000 Tweets, von denen wir 2041 zufällig gewählte 
Instanzen annotieren. 

Wir annotieren mit zwei Annotator:innen, welche zunächst in zwei Runden trai- 
niert werden. Dabei wird ein moderates Inter-Annotator Agreement von durch- 
schnittlich Cohen’s «x = 0,68 erreicht. Beispiele der Annotation finden sich in 
Tab. 1. 

Die Analyse der Korpora findet sich zusammengefasst in Abb. 1. Wir beobachten, 
dass die kognitive Komponente in beiden Korpora am häufigsten auftritt. In Twitter 
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Tab. 1 Beispiele des Emotionskomponentenkorpus 


Komponente 


Kognitive Bewertung 


Textbeispiel 


I can’t stop 
found my old lava lamp! 


Physiologisch She did not know; she trembled. 
Apparently, i might have alcohol poisoning 
#stupidgirl 

Subjektives Empfinden Women—women-I love thee! 
bad day 

Motivation We’re going out tonight. 
Sometimes I wanna take your head and ram 
it into mirrors. 

Ausdruck An expression of annoyance appeared on the 
emperor’s face. 
Finals tomorrow. ..ugh 

TEC/Twitter REMAN/Literature 
Kognitiv Kognitiv 
Subjektiv Subjektiv ; _Physiologisch 
Ausdruck Ausdruck Motivation 


Abb. 1 Ergebnisse der Emotionskomponentenannotation in Twitter und in Literatur. Desto 
weiter außen ein Punkt liegt, desto häufiger findet sich eine Annotation dieser Komponente. 
Für eine emotionsspezifische Analyse verweisen wir die Leser:innen auf Casel et al. (2021) 


ist die zweithäufigste Komponente die subjektive Wahrnehmung, in der Literatur 
ist es die Ausdruckskomponente. Bemerkenswert ist die unterschiedliche Ausprä- 
gung des subjektiven Ausdrucks — Nutzer:innen sozialer Medien beschreiben diesen 
deutlich seltener, als er in Literatur auftritt. Dies ist zu erwarten und entspricht dem 
„Show-don’t-Tell“-Paradigma, nachdem Leser:innen in der Literatur Ereignisse und 
Emotionen erlebbar gemacht werden sollten, statt sie einfach nur zu beschreiben. 
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Die Komponenten sind nicht über die Emotionen gleichverteilt. Ekel wird in 
sozialen Medien häufiger mit Körperreaktionen beschrieben und zur Kommunika- 
tion von Angst wird eher das subjektive Gefühl genutzt. 

Unter der Annahme, dass die beobachtete Verteilung auch in anderen Domä- 
nen als denen, die durch die genutzten Korpora repräsentiert werden, gilt, ist nun 
Folgendes festzuhalten: In sozialen Medien, die uns für die Analyse von Hassrede 
freilich mehr interessieren als die zum Vergleich dargestellte Analyse von Lite- 
ratur, wird insbesondere die kognitive Komponente von Emotionen genutzt, um 
affektgeladene Inhalte zu kommunizieren. Somit sollten automatische Systeme die 
Fähigkeit implementiert bekommen, Ereignisse „empathisch“ zu interpretieren — 
mit einer expliziten Nennung von Emotionen ist in weiten Teilen der Daten nicht 
zu rechnen. Eine solche direkte Benennung der Emotion durch die Beschreibung 
der subjektiven Komponente ist nur die zweithäufigste Art und Weise, Emotionen 
zu beschreiben. 


3.2 Modellierung 


Nachdem wir nun ein Korpus zur Verfügung haben, welches mit Emotionskom- 
ponenten annotiert ist, werden wir untersuchen, ob diese zusätzliche Sichtweise 
von Emotionen der automatischen Klassifikation zuträglich ist, welche ja für 
eine groß angelegte Analyse von sozialen Medien notwendig ist. Wir verwen- 
den verschiedene neuronale Klassifikatoren („deep learning“), welche in Abb. 2 
zusammengefasst sind. Entsprechend der aktuell üblichen Konfiguration solcher 
automatischen Klassifikationssysteme bestehen diese Netze aus mehreren Ebenen. 
Die unterste Ebene sind vortrainierte BERT-Satzeinbettungen als Eingabemerkmale 
(Devlin et al., 2019). Diese Einbettungen repräsentieren die Semantik der Einga- 
betexte in einem Vektorraum. Die darauf aufbauende Netzwerkarchitektur stellt 
sicher, dass die Wortvektoren nicht isoliert, sondern in der Reihenfolge betrachtet 
werden, in der sie im Text auftreten. Dies ermöglicht auch die Interpretation von 
Wortfolgen, wie sie zum Beispiel bei Negationen auftreten. Wir kombinieren hier, 
inspiriert durch Chen und Wang (2018), Sosa (2017), ein bidirektionales LSTM 
(Hochreiter & Schmidhuber, 1997) in Kombination mit einem CNN. 

Diese Architektur verwenden wir in einem Klassifikator zur Vorhersage der 
Emotionskomponenten (Cpm-NN-Base) und der Emotionen (Emo-NN-Base). Um 
zu untersuchen, ob nun das Wissen über Emotionskomponenten der Emotions- 
vorhersage zuträglich ist, vergleichen wir diese einfache Architektur mit einem 
Embotionsklassifikator, welcher auf die Komponentenvorhersage Zugriff hat (Emo- 
Cpm-NN-Pred) und mit einem Cross-Stitch-Multi-Task-Learning-Modell (Misra 
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Abb. 2 Neuronale Modellarchitekturen zur Vorhersage von Emotionskomponenten und 
Emotionen 


et al., 2016) (MTL-XS), bei dem Information aus einer Aufgabe genutzt werden 
kann, um die andere zu lösen. 

Diese konfigurierten maschinellen Lernmodelle stellen nun eine große Menge 
Parameter bereit, welche optimiert werden müssen, um die vorliegende Aufgaben- 
stellung der Zuweisung von Emotionen bzw. Emotionskomponenten zu Text zu 
lösen. Hierzu teilen wir die vorliegenden Daten in eine Trainingsmenge (zur Opti- 
mierung der Parameter) und eine Testmenge (zur Evaluation der Güte des Klassifi- 
kators) auf. Die Evaluationsergebnisse sind in Abb. 3 zusammengefasst. Wir sehen 
hier, dass das Modell, welches die Komponenten nutzt, um Emotionen vorherzu- 
sagen (Emo-Cpm-NN-Pred), nicht besser ist als das Modell, welches nur Zugriff 
auf den Text hat (Emo-NN-Base). Wenn wir die Vorhersage allerdings durch die 
Annotation ersetzen (Emo-Cpm-NN-Gold) sehen wir eine deutliche Verbesserung 
— die Vorhersage der Komponenten alleine ist also nicht gut genug, um in einer „Pi- 
peline“ auch Erfolg zu zeigen. Allerdings sehen wir, dass das Multi-Task-Modell 
(MTL-XS) nahezu die selbe Performanz zeigt wie das Modell, welches auf die Kom- 
ponentenannotation zugreift. Wir können also festhalten, dass das Wissen um die 
Emotionskomponenten auch der Emotionsvorhersage zuträglich ist. 


3.3 Zusammenfassung 
Wir haben nun in diesem Abschnitt auf Basis eines neuen Emotionskorpus gelernt, 


dass das Emotionskomponentenmodell hilfreich ist, um zu verstehen, wie Emotio- 
nen beschrieben werden. Wir wissen auch, dass in sozialen Medien wohl subjektive 
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Abb. 3 Ergebnisse der Emotionsklassifikation unter Berücksichtigung der Emotionskompo- 
nenten 


Beschreibungen häufiger sind als in der Literatur, wobei dort häufiger auf den Aus- 
druck einer Emotion Bezug genommen wird. In beiden Domänen spielt aber die 
kognitive Komponente — die Interpretation von Ereignissen — die wichtigste Rolle. 
Dies führt uns zu dem nächsten Abschnitt, in dem wir vorschlagen, Emotionen durch 
Appraisaldimensionen zu repräsentieren. 


4 Klassifikation von Appraisaldimensionen’ 


Aus diesen Ergebnissen ergibt sich nun die Motivation, insbesondere der Dimen- 
sion des Appraisals Aufmerksamkeit zu schenken. Uns interessiert jetzt also, wie wir 
mit komputationellen Mitteln Ereignisse bezüglich ihrer Emotion einordnen kön- 
nen. Ein Beispiel, welches eine solche Einordnung motiviert, ist der Text: „wenn 
ein Auto ein anderes überholt und ich gezwungen bin von der Straße zu fahren“*. 
Hier wird ein Zwang beschrieben etwas zu tun, was die Person selbst nicht kontrol- 
lieren kann und was eher als unangenehm eingeordnet werden dürfte. Hier spielt 
möglicherweise die generelle Gefahr des Autofahrens eine Rolle, hier dürfte die Per- 
son, die den Text verfasst hat, aber vermutlich eher Wut ausdrücken. Ein weiteres 
Beispiel, aus dem Hatespeech-Korpus von Ross et al. (2016), wäre die Nachricht: 
„Überall schwangere, muslimische Frauen mit einem Rattenschwanz an Kindern 


3 Dieser Abschnitt basiert auf Hofmann et al. (2020, 2021). 
4 Ein Beispiel aus dem Korpus von Troiano et al. (2019), übersetzt aus dem Englischen. 


Emotionsklassifikation in Texten unter Berücksichtigung ... 143 


#Islamisierung“. Hierbei wird die/der Autor:in möglicherweise von einer wahrge- 
nommenen fehlenden Kontrolle der Situation geleitet, welche in Kombination mit 
der individuell als nicht angenehm beurteilten Situation potentiell zu Angst führt. 
Diese Erkenntnis und Schlussfolgerung kann der (automatischen) Erkennung von 
Hassrede zuträglich sein. Im folgenden Stellen wir also einen Ansatz vor, wie sol- 
che Evaluierungen von Situationen in einem automatischen System genutzt werden 
können. 


4.1 Korpusannotation 


Zur Analyse solcher Beschreibungen benötigen wir ein Korpus, welches vor allem 
Ereignisse enthält. Wir stützen uns daher auf das enISEAR-Korpus (Troiano et al., 
2019), welches von Troiano et al. in Anlehnung an die ursprüngliche ISEAR-Studie 
(Scherer & Wallbott, 1997) entwickelt wurde. Troiano und Kollegen haben Teilneh- 
mer:innen in einer Crowdsourcing-Plattform gebeten, zu einer gegebenen Emotion 
ein Ereignis zu beschreiben, welches diese Emotion hervorgerufen hat. Dies führte 
zu 1001 englischen Instanzen, welche gleichverteilt für die Emotionen Wut, Ekel, 
Angst, Schuld, Freude, Traurigkeit, and Scham generiert wurden. Wir annotieren 
diese für Appraisal-Dimensionen. 

Diese Appraisal-Variablen beziehen wir aus der Studie von Smith und Ellsworth, 
welche gezeigt haben, dass eine relativ niedrige Dimensionalität ausreicht, um Emo- 
tionen zu unterscheiden, dabei aber eine größere Mächtigkeit hat als Modelle des 
Affekts (Smith & Ellsworth, 1985). Diese Dimensionen sind, (1) wie angenehm ein 
Ereignis ist (was wahrscheinlich mit Freude auftritt, aber zum Beispiel nicht mit 
Ekel), (2) wie viel Aufwand aufzubringen ist (zum Beispiel eher hoch bei Angst), 
(3) wie sicher die erlebende Person ist, was in der Situation geschieht (niedrig bei 
Überraschung oder Hoffnung), (4) wie viel Aufmerksamkeit die Situation bedarf 
(z.B. niedrig bei Langeweile), (5) wie viel Verantwortung die Person dafür trägt, 
was geschieht (hoch für das Gefühl von Herausforderung oder Stolz), und (6) wie 
viel Kontrolle die Person über die Situation hat (z.B. niedrig im Fall von Wut). Im 
Gegensatz zu der Originalstudie von Smith und Ellsworth sind bei unserer Anno- 
tation Ereignisbeschreibungen zu bewerten, welche nicht selbst erlebte Ereignisse 
darstellen. Daher vereinfachen wir die Annotation zu einer binären Aufgabe, bei der 
für jede der Dimensionen zu entscheiden ist, ob sie wahrscheinlich für die beschrei- 
bende Person galt oder nicht. Des Weiteren teilen wir die Dimension der Kontrolle 
in „Umstand“ (die Situation konnte von niemandem beeinflusst werden) und die 
Kontrolle der Person auf. Die von den Annotator:innen zu beantwortenden Fragen 
waren also (übersetzt aus dem Englischen): 
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Wahrscheinlich galt für die Person, die das Ereignis beschrieb, zum Zeitpunkt des 
Ereignisses, dass sie... 


...dem Ereignis Aufmerksamkeit schenkte. (Aufmerksamkeit) 

...sich sicher war, was geschah. (Gewissheit) 

...physischen oder mentalen Aufwand mit der Situation hatte. (Aufwand) 
...die Situation angenehm fand. (Annehmlichkeit) 

...sich als verantwortlich für das empfand, was geschah. (Verantwortung) 

...die Kontrolle hatte. (Kontrolle) 

...fand, dass das Ereignis von nichts oder niemandem hätte beeinflusst werden 
können. (Umstand) 


Jedes Ereignis wurde von drei Annotator:innen markiert, nachdem sie mit Hilfe 
der Daten aus der Original-ISEAR-Studie (Scherer & Wallbott, 1997) angelernt 
wurden. Hier wurde eine durchschnittliche Übereinstimmung von Cohen’s k = 
0,67 erreicht, wobei festzuhalten ist, dass die Annotator:innen keinen Zugriff auf 
die Emotionsklasse hatten (wenn sie diese kannten, wurde eine Übereinstimmung 
> ,8 erreicht, allerdings wäre dies eine Aufgabe, welche nicht einem späteren 
automatischen System entspräche). Die endgültige Annotation wurde durch einen 
Mehrheitsbeschluss gebildet, wobei jede:r Annotator:in mit diesem Ergebnis eine 
Übereinstimmung von ‚70 — ‚82x zeigte. Beispiele für Daten aus unserem Korpus 
finden sich in Tab. 2. 

In Abb. 4 zeigen wir eine aggregierte Statistik der Annotation. Wir sehen, dass 
die Ergebnisse in weiten Teilen den Erkenntnissen von Smith und Ellsworth ent- 
sprechen (Smith & Ellsworth, 1985, siehe Tab. 6). Dies ist ein Indiz dafür, dass 
die Annotationsaufgabe der Bewertung von durch andere Personen beschriebenen 
Ereignissen tatsächlich möglich ist. Dies ist eine wichtige Erkenntnis, da ansonsten 
auch automatische Systeme, welche auf den Daten aufbauten, nur einen fragwürdi- 
gen Nutzen hätten. 

Die am häufigsten annotierte Klasse ist Gewissheit, gefolgt von Aufmerksam- 
keit. Wut und Angst erfordern Aufmerksamkeit, Schuld und Scham dagegen nicht; 
Ekel und Wut zeigen die höchste Assoziation mit Gewissheit, im Gegensatz zu 
Angst. Verantwortung und Kontrolle spielen bei Schuld und Scham die größte 
Rolle, wobei diese Dimensionen bei Schuld deutlich stärker ausgeprägt sind. Freude 
hängt stark mit Annehmlichkeit zusammen. Angst hat eine klare Verbindung zu Auf- 
wand, gemeinsam mit Traurigkeit ist sie auch durch die Abwesenheit von Kontrolle 
gekennzeichnet. 
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Tab. 2 Beispiele aus unserem Appraisal-Korpus. Wir nennen die geltenden Appraisal- 
Dimensionen, alle nicht genannten Variablen sind in der Instanz nicht annotiert worden 


Emotion Appraisal Text 

Wut Aufmerksamkeit When my neighbour started to throw 
Gewissheit rubbish in my garden for no reason. 

Ekel Gewissheit to watch someone eat insects on 

television. 

Angst Aufmerksamkeit When our kitten escaped in the late 
Aufwand evening and we thought he was lost. 
Umstand 

Schuld Gewissheit When I took something without paying. 
Verantwortung 
Kontrolle 

Freude Aufmerksamkeit When I found a rare item I had wanted 
Gewissheit for a long time. 
Annehmlichkeit 
Verantwortung 

Traurigkeit Aufmerksamkeit When my dog died. He was ill for a 
Gewissheit while. Still miss him. 
Aufwand 
Umstand 

Scham Gewissheit When I remember an embarrassing social 
Verantwortung faux pas from my teenage years. 


4.2 Modellierung 


Wir wenden uns nun der Frage zu, ob und wie gut die Appraisaldimensionen automa- 
tisch aus Text vorhergesagt werden kénnen.> Dazu verwenden wir das vortrainierte 
Sprachmodell RoBERTa-base (Liu et al., 2019) mit der Abstraktion, wie sie durch 
ktrain (Maiya, 2020) zur Verfügung gestellt wird. Um bei der verhältnismäßig klei- 
nen Datenmenge ein möglichst zuverlässiges Ergebnis zu erlangen, verwenden wir 
eine 3x 10-fach Kreuzvalidierung und geben die Durchschnittswerte an. 

Diese Ergebnisse zeigen wir in einer Zusammenfassung in Abb.5. Die Perfor- 
manz, gemessen als Fı, also dem harmonischen Mittel zwischen Vollständigkeit 


5 Aus Platzgründen diskutieren wir hier nicht, inwieweit die Appraisalvorhersagen der Emo- 
tionsklassifikation zuträglich sind und verweisen die Leser:in auf unsere vorgehende Publika- 
tion (Hofmann et al., 2020). Die hier dargestellten Ergebnisse stammen aus den Experimenten, 
welche wir in Hofmann et al. (2021) durchgeführt haben. 
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Abb. 4 Ergebnisse der Appraisalannotation 


und Genauigkeit, liegt zwischen 0,71 und 0,92 und ist somit fiir alle Dimensionen 
zufriedenstellend. Die höheren Werte werden fiir die Klassen erreicht, welche in den 
Daten häufiger auftreten, sodass erwartet werden kann, dass die Erstellung größerer 
Korpora auch zu weiteren Verbesserungen führen dürfte. 
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Abb. 5 Ergebnisse der Vorhersage der Appraisaldimensionen mit Hilfe einer 3x 10-fach 
Kreuzvalidierung 


43 Zusammenfassung 


In diesem Abschnitt des Kapitels haben wir nun eine Operationalisierung der kogni- 
tiven Komponente von Emotionen vorgestellt. Diese Komponente verknüpft Kogni- 
tion mit Emotion und stellt somit einen wichtigen Aspekt in der automatischen 
Analyse dar. Unsere Ergebnisse basieren auf einer manuellen Korpusannotation und 
einem komputationellen Modell, welches auf maschinellem Lernen basiert. Sowohl 
die Korpusanalyse als auch die Modellierung zeigen, dass die gewählten Dimensio- 
nen eine schlüssige Alternative zu etablierten Emotionsanalyseverfahren darstellen. 
Diese Repräsentation mit Hilfe der Appraisaldimensionen ist insbesondere für eine 
automatische Verarbeitung von Ereignisbeschreibungen geeignet, welche, wie wir 
in Abschn. 3 gesehen haben, besonders häufig in sozialen Medien und in der Lite- 
ratur auftreten. 

Aus der Arbeit von Plaza-del-Arco et al. (2021) wissen wir, dass die Erken- 
nung von Hassrede in sozialen Medien durch Emotionserkennung unterstützt 
wird, automatische Klassifikationsverfahren also insbesondere eine höhere Abde- 
ckung erreichen und weniger Hassrede unerkannt bleibt. Unsere hier vorgestellten 
Studien motivieren die Fortsetzung der Arbeiten und die Integration von Apprai- 
saltheorien in Methoden zur Erkennung von Hassrede. Wir erwarten, dass insbeson- 
dere die automatische Erkennung von implizit formulierter Hassrede durch diesen 
Ansatz verbessert werden kann. 


148 R.Klinger 


5 Fazit 


In diesem Kapitel haben wir die Verwendung des Emotionskomponentenprozess- 
modells und von Appraisaltheorien für die Emotionsanalyse diskutiert und entspre- 
chende Ressourcen und maschinelle Lernverfahren vorgestellt. Wir konnten damit 
einen Beitrag zu dem Verständnis leisten, wie Emotionen ausgedrückt und (maschi- 
nell) erkannt werden. Daraus ergeben sich nun eine Reihe weiterer Forschungsfra- 
gen. 

Wir haben die Appraisalanalyse in Abschn. 4 mit Hilfe eines dedizierten Korpus 
von Ereignisbeschreibungen entwickelt. Dies ist für diese isolierte Betrachtung eine 
sinnvolle Wahl, um genau dieses Phänomen untersuchen zu können. Allerdings ist 
hiermit noch nicht gezeigt worden, dass die Ereignisbeschreibungen in allgemei- 
neren Korpora, wie solchen, die in Abschn.3 Verwendung fanden, auch sinnvoll 
nutzbar sind. Dieser Fragestellung sind wir zum Teil, aber nur mit automatischen 
Annotationsverfahren, in Hofmann et al. (2021) nachgegangen. Weiterhin offen ist, 
ob sich mit Hilfe der Appraisalannotation auch eine Verbesserung der Emotionskate- 
gorisierung herbeiführen lässt. Dies konnten wir bisher nicht zeigen, erwarten aber, 
dass die Entwicklung hinreichend großer Textkorpora diesen methodischen Zusam- 
menhang zukünftig sichtbar machen wird (Hofmann et al., 2020). Festzuhalten ist 
aber allemal, dass die Appraisaldimensionen, und auch die Emotionskomponenten, 
eine neuartige Perspektive auf die Erlebnisse von Nutzer:innen sozialer Medien und 
Figuren in literarischen Texten bieten. 

Die Emotionsanalyse fand bereits in der Vergangenheit in anderen Aufgaben 
Anwendung, auch in der Analyse von Hassrede und Beleidungen. Es ist bereits 
bekannt, dass auf die Ziele von Hassrede mit Hilfe unterschiedlicher Stilmittel refe- 
renziert wird, z.B. durch metaphorische Referenzen auf Tiere, Körperteile oder 
mentale Zustände (Lemmens et al., 2021; Silva et al., 2016). Wir schlagen hier vor, 
dem Ausdruck der Emotion weitere Aufmerksamkeit zu schenken, da auch hier 
implizite Formulierungen verwendet werden könnten, zum Beispiel Beschreibun- 
gen von Ereignissen. Dies ist auch aus Sicht der Definition von Hassrede schlüssig: 
Hassrede enthält häufig einen Aufruf zu Taten. Diese beschriebenen Aktionen stellen 
Ereignisse dar, welche bezüglich ihrer emotionalen Wirkung berücksichtigt werden 
müssen. Es sollten also Textkorpora erstellt werden, welche zur Untersuchung die- 
nen, wie die Emotion in der Hassrede kommuniziert wird (z.B. in Anlehnung an 
unsere Komponentenanalyse in Abschn. 3) und welche Bewertungen dieser durch 
die Autor:innen und Adressaten der Beleidungen und Hassreden durchgeführt wer- 
den (z.B. in Anlehnung an unsere Appraisalanalysen in Abschn. 4). 
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Die Regulierung von Internetinhalten 
am Beispiel Hassrede: Ein 
Forschungsüberblick 


Wolf J. Schünemann und Stefan Steiger 


1 Einleitung 


Digitale Kommunikation und politische Regulierung stehen in einem grund- 
legenden Spannungsverhältnis. Dezentralität, Transnationalität und weitgehend 
privatwirtschaftliche Trägerschaft als wesentliche Merkmale der Internetarchi- 
tektur sowie die relative Anonymität der Netzwerkkommunikation fordern her- 
gebrachte Strukturen und Routinen der Regulierung heraus. Zudem bildet die 
freie Rede eine wesentliche Wertegrundlage und ein normatives Ideal für viele 
Gesellschaften und Regierungen (insb. demokratische) in der gesamten Welt. 
Das Internet und seine grundlegend freiheitliche Anlage und Architektur haben 
diese Werteorientierung in den vergangenen Jahrzehnten noch verstärkt und zur 
globalen Verbreitung entsprechender Geltungsansprüche — wie auch normativer 
und institutioneller Widerstände (s. etwa China) — beigetragen. So beobachten 
wir aktuell neue und flexible Formen der Governance, insbesondere wenn 
es um die Regulierung von Internetinhalten geht. Gerade auf diesem Feld ist 
die Spannung zwischen einem wachsenden gesellschaftlichen Problemdruck 
und beschränkten Handlungsspielräumen für klassische Regulierungsakteure 
besonders deutlich geworden. Gleichzeitig wachsen allerdings die Sorgen, dass 
die neuartigen Arrangements der Ko- und Selbstregulierung mit zentraler Rolle 
für große Plattformen aufgrund intransparenter Praktiken, algorithmengestützter 
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Filterung und Steuerung normative Standards demokratischer Governance eher 
noch unterlaufen als sie zu stützen. Anders als in früheren Phasen der Internetent- 
wicklung, als euphorische Erwartungen im Hinblick auf die politische Teilhabe, 
die demokratische Diskursqualität und die grenzüberschreitende Kommunikation 
überwogen und diese Chancen mit der relativ geringen Regelungsdichte und 
Staatsferne der Internettechnologie begründet wurden (Benkler, 2006; Rhein- 
gold, 1994), wird seit einigen Jahren vermehrt über die Schattenseiten digitaler 
Kommunikation debattiert (Kneuer, 2013). Dabei nehmen Sorgen vor der Ver- 
breitung von Hassrede, Hetze und extremistischen Inhalten sowie ihren schäd- 
lichen Wirkungen auf das gesellschaftliche Leben und den demokratischen 
Diskurs einen prominenten Platz ein. Diese haben in den vergangenen Jahren 
zunehmend die Aufmerksamkeit von politischen Entscheidungsträger*innen 
gewonnen und zu verstärkten Regulierungsbemühungen auf verschiedenen 
Ebenen geführt. Der eingeleitete Wandel in der politischen Regulierungspraxis 
hat auch in der wissenschaftlichen Bearbeitung neue Schwerpunktsetzungen 
hervorgerufen. Im vorliegenden Beitrag möchten wir einen kombinierten Über- 
blick über einige zentrale Tendenzen und Trends der Regulierungspraxis sowie 
ihrer wissenschaftlichen Bearbeitung bieten. 

Zunächst einmal blicken wir auf den grundlegenden Paradigmenwechsel, der 
sich in der liberaldemokratischen Internetregulierung andeutet (2). Danach dis- 
kutieren wir die chronologisch wie disziplinär unterscheidbaren Forschungs- 
stränge entlang von drei Stationen mit konkretem Bezug zur Hassrede (3). Im 
Anschluss daran wenden wir uns den Regulationsaktivitäten zu, zuerst mit 
Blick auf die Regeldefinition (4), dann im Hinblick auf die Verfolgungs- und 
Sanktionspraxis (5). Unser Fokus liegt auf Hassrede als Regulierungsgegen- 
stand. Allerdings lassen sich politische Trends, Regulierungsbemühungen sowie 
ihre wissenschaftliche Bearbeitung nicht immer auf diesen Gegenstand verengen, 
sondern er fällt als prominentes und aktuell besonders virulentes Beispiel in das 
weitere Feld der Regulierung von Internetinhalten.! 


!Unter Internetinhalteregulierung sind alle Regelungen, Praktiken und technischen 
Maßnahmen zu verstehen, die darauf zielen, Internetinhalte, die als schädlich wahr- 
genommen werden, unzugänglich oder unsichtbar zu machen bzw. sie zu entfernen. 
Damit kann also auch die Sperrung von Internetseiten und -diensten sowie die Sperrung 
von Nutzerkonten eingeschlossen sein, wenn das Regulationsziel den jeweiligen Content 
betrifft. 
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2 Der Ruf nach verantwortlichen Plattformen und 
das Ende des Internetexzeptionalismus? 


Die oben beschriebenen Trends zu vermehrten Regulierungsforderungen und 
gesteigerter Regulationspraxis in Bezug auf Inhalte der Online-Kommunikation 
haben auch demokratische Systeme erfasst (s. etwa die jährlichen Berichte 
Freedom on the Net, Freedom House, 2021). Dabei ist das eingangs genannte 
Spannungsverhältnis (‚the inherent tension“) für liberale Demokratien besonders 
groß, weil jeder Eingriff in die Online-Kommunikation gegen das für den 
demokratischen Regimetyp konstitutive Recht auf freie Meinungsäußerung 
und Information sorgsam abgewogen werden muss (Schejter & Han, 2011, 
S. 248). Der für demokratische Medienpolitik so typische, normativ begründete 
„bias against control“ (McQuail, 2010, S.234) ist zudem in den zurück- 
liegenden Jahrzehnten, also parallel zur Internetentwicklung, durch die gründ- 
liche Liberalisierung auch der klassischen Medienmärkte eher noch vergrößert 
worden. Im Ergebnis weist die Regulierung des Internets und der digitalen 
Kommunikation erhebliche Besonderheiten gegenüber der medienpolitischen 
Regelungsdichte und den Kontrollinstanzen von Presse, Rundfunk und Fern- 
sehen auf. Dazu zählt im Wesentlichen das sogenannte Haftungsprivileg, das 
besagt, dass solche Inhalteanbieter im Internet, die selbst nicht Hersteller der ver- 
breiteten Inhalte sind, sondern nur als Plattformen für den Austausch von Inhalten 
Dritter fungieren, nicht für die veröffentlichten Inhalte in Haftung genommen 
werden können. Diese Grundregel, wie sie in der US-amerikanischen Tele- 
kommunikationsregulierung seit 1996 verankert ist (Communications Decency 
Act) und die Internetregulierung zumindest innerhalb des westlichen Internet- 
ökosystems prägt, gilt als Grundbedingung für die dynamische Kommerzia- 
lisierung, die Kommunikationsfreiheit und die Innovationskraft des Internets. Aus 
Regulationsperspektive haben Beobachter*innen in der Vergangenheit in diesem 
Zusammenhang auch vom ,,Internetexzeptionalismus (Wu, 2010) gesprochen. 
Aktuell lässt sich auch für liberale Demokratien ein regulatorischer Para- 
digmenwechsel beobachten. Er setzt bei den großen Plattformen an, die 
als zentrale Infrastrukturanbieter kritische Funktionen für moderne Gesell- 
schaften, insbesondere auch im Hinblick auf die öffentliche und politische 
Kommunikation, übernommen haben (Van Dijck etal., 2018) und damit für 
die beklagten Phänomene gesellschaftlicher Polarisierung und der Verrohung 
des demokratischen Diskurses mitverantwortlich gemacht werden können. Aus 
dieser Beobachtung und Verantwortungszuschreibung sind in vielen Ländern 
gesetzgeberische Reformen hervorgegangen, die die Regeln für eine bedingte 
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Haftung von Plattformen festlegen. Unter den liberalen Demokratien kann ins- 
besondere Deutschland als Vorreiterin gelten. Denn in Deutschland führten 
die Bedenken über die Folgen von Hassrede und Extremismus im Netz — bspw. 
die begünstigende Wirkung auf politische Gewalt (Müller & Schwarz, 2021) 
— zu einer Folge von Gesetzesnovellen, die die Betreiber sozialer Medien 2017 
zunächst zur Löschung strafbarer Inhalte (Netzwerkdurchsetzungsgesetz, kurz: 
NetzDG) und schließlich 2020 zu deren Meldung verpflichtet haben (Gesetz zur 
Bekämpfung des Rechtsextremismus und der Hasskriminalität). Insbesondere das 
NetzDG ist international viel beachtet (und auch mit Kritik bedacht) worden. An 
seinem Vorbild haben sich andere Länder in ihrer Rechtsetzung orientiert, wie 
etwa Frankreich. Auch der im Dezember 2020 von der EU präsentierte und mit 
großen Erwartungen begleitete Verordnungsentwurf zu einem Digital Services 
Act, also einer grundlegenden europäischen Rechtsetzung im Hinblick auf 
digitale Dienste, macht Anleihen am Beispiel des NetzDG. So etwa im Hinblick 
auf die Löschpflichten nach Meldung (notice-and-takedown), die Transparenz 
und Aufsicht der Content-Moderation auf Seiten der Plattformen sowie das 
Beschwerdemanagement (Schünemann, 2021). 

Selbst in den USA gerät das Haftungsprivileg nach Section 230 des 
Communications Act zunehmend unter Druck. Diese Entwicklung ist in ver- 
schiedener Hinsicht bemerkenswert und kann bedeutende Folgen auch für die 
Internetentwicklung weltweit zeitigen, denn die Vereinigten Staaten zeichnen sich 
im internationalen Vergleich durch einen besonderen Schutz der freien Rede aus, 
die im Verfassungsrecht an zentraler Stelle (1st Amendment) verankert ist und 
traditionell von Politik und Justiz verteidigt wird. Gerade in Bezug auf das Inter- 
net, die Freiheit von staatlicher Regulierung und die Innovationskraft von Inter- 
netunternehmen haben die USA in der Vergangenheit einen entschieden liberalen 
Ansatz vertreten und gegen Tendenzen zur Einschränkung der Internetfreiheit 
in anderen — insbesondere autokratischen — Staaten verteidigt. Aufgrund der 
von den USA ausgegangenen Internetentwicklung, seiner Marktmacht und der 
klaren Dominanz US-amerikanischer Plattformanbieter für das westliche Inter- 
netökosystem nehmen die USA weiterhin eine besonders prägende Rolle für die 
digitalpolitische Governance ein. Eine partielle Reform des Haftungsprivilegs 
ist für die aktuelle Legislaturperiode wahrscheinlich. Nicht allein im zurück- 
liegenden Präsidentschaftswahlkampf war zu beobachten, wie dieses Funda- 
ment der Internetregulierung von beiden konkurrierenden Lagern infrage gestellt 
und als reformbedürftig charakterisiert wurde. Hassrede und Hetze in Online- 
Medien spielen dabei als besonders dringlich wahrgenommene Regulations- 
gegenstände und Rechtfertigungen für Eingriffe in die Kommunikationsfreiheit 
eine zunehmend wichtige Rolle. Dies zeigen etwa die dramatischen Ent- 
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wicklungen anlässlich der zurückliegenden Präsidentschaftswahl, insbesondere 
die Erstürmung des Kapitols Anfang Januar 2021, die verschiedene Plattformen 
ihrerseits zu Reaktionen veranlasst und zugleich auch die politische Reform- 
notwendigkeit unterstrichen haben. Auch die im Herbst 2021 veröffentlichten 
Dokumente der Whistleblowerin Frances Haugen zum Umgang des Plattform- 
betreibers Facebook mit Hassrede und anderen schädlichen Inhalten? haben den 
Druck auf die politischen Akteure verstärkt, effektive Regulierungsmaßnahmen 
zu ergreifen oder auf Seiten der Plattformen herbeizuführen. 

Vor diesem Hintergrund stellt sich die in der Vergangenheit immer wieder dis- 
kutierte Frage nach der Zukunft des ‚Internetexzeptionalismus‘ im Hinblick auf 
Möglichkeiten, Formen und Ausmaße medienpolitischer Regulierung (Wu, 2010) 
in neuer Aktualität: Vollzieht die digitalpolitische Regulierung derzeit einen 
Paradigmenwechsel? Ist für die digitale Kommunikation eine medienpolitische 
Normalisierung im Vergleich zu anderen Kommunikationsmedien zu erwarten 
oder bleibt die Governance digitaler Medien eine Sphäre mit eigenen Gesetz- 
lichkeiten und spezifischen Governance-Formaten? Für diese Fragen hat die 
Regulierung von Online-Hassrede eine entscheidende Bedeutung. Sie steht ent- 
sprechend im Mittelpunkt der folgenden Abschnitte. 


3 Definition von Hassrede unter besonderer 
Berücksichtigung der digitalen Konstellation 


Linguistische und computerlinguistische Ansätze zur Erkennung von Hass- 
rede gehen vielfach von einer weiteren Definition von Hassrede im Sinne von 
„offensive speech“ aus, als es aus politiktheoretischer Perspektive normativ 
geboten und aus regulatorischer Sicht praktikabel scheint. Letztere Perspektiven 
beschränken sich in der Regel auf die inhaltliche Dimension von Hassrede 
und einige kontextuelle Faktoren (Medienumgebung, Textsorte etc.), die eine 
differenzierte Bewertung erfordern (vgl. Sirsch, 2013, S. 167 £.). 

Bestehende gesetzliche Regelungen zum Umgang mit Hassrede spiegeln die 
definitorische Engführung grundsätzlich wider und unterscheiden zumeist auf der 
inhaltlichen Ebene zwischen persönlichen und gruppenbezogenen Äußerungen 
von Hass, wobei allerdings verschiedene Kontextfaktoren wie die Unterscheidung 


?Die sog. facebook files wurden im Wall Street Journal veröffentlicht, URL: https://www. 
wsj.com/articles/the-facebook-files-11631713039. 18.12.2021. 


160 W. J. Schünemann und S. Steiger 


öffentlicher und privater Kommunikation oder etwa satirischer und künstlerischer 
Formate Differenzierungspotential bieten und Rechtfertigungsgründe darstellen 
können. Zudem wird auch der potenzielle Schaden eines Kommunikationsvor- 
gangs bemessen. Viele gesetzliche Regelungen legen daher bspw. fest, dass Hate 
Speech geeignet sein müsse, den Öffentlichen Frieden zu stören, bspw. $ 130 
StGB: 


(1) Wer in einer Weise, die geeignet ist, den öffentlichen Frieden zu stören, 

gegen eine nationale, rassische, religiöse oder durch ihre ethnische Herkunft 
bestimmte Gruppe, gegen Teile der Bevölkerung oder gegen einen Einzelnen 
wegen seiner Zugehörigkeit zu einer vorbezeichneten Gruppe oder zu einem Teil 
der Bevölkerung zum Hass aufstachelt, zu Gewalt- oder Willkürmaßnahmen auf- 
fordert [...] 

wird mit Freiheitsstrafe von drei Monaten bis zu fünf Jahren bestraft. 


Nach Einschätzung von Kritiker*innen werden diese etablierten 
Differenzierungen durch digitale Kommunikationsformen herausgefordert 
(Bakalis, 2016, S.266). Grundlegend sind aus dieser Perspektive daher 
sowohl neue graduelle Unterscheidungen zwischen privaten und öffentlichen 
Kommunikationsvorgängen zu etablieren als auch zusätzlich Überlegungen zur 
transnationalen Dynamik von Hate Speech und deren schädlicher Wirkung anzu- 
stellen. 

Grundlegende Überlegungen zur Besonderheit von digitaler Hassrede aus 
philosophisch-ethischer und rechtlicher Perspektive thematisieren sowohl die 
Verbreitung und Exposition als auch die potentielle Wirkung. So sei zunächst 
die Exposition gegenüber Hate Speech in der digitalen Sphäre schwerer zu 
kalkulieren, da auf Plattformen sehr heterogene Gruppen interagieren und nicht 
bei jedem Klick vorhersehbar sei, welche Inhalte folgen können (Bakalis, 2016, 
S. 267). 

Mit der (geografischen) Distanz zwischen Täter*innen und Opfern nehme 
zudem die Wahrscheinlichkeit ab, dass sich bei persönlicher Interaktion Mit- 
gefühl oder Sympathie einstellen könnten (Brown, 2015, S. 134 £.). Dies trifft 
zwar auf alle Formen vermittelter Kommunikation zu und ist damit kein genuines 
Merkmal der Digitalisierung. Allerdings haben vermittelte Formen durch die 
Digitalisierung einen neuen Stellenwert für die interpersonelle Kommunikation 
erlangt. In diesem Kontext werden in der demokratietheoretischen Literatur 
seit langer Zeit die schädlichen Wirkungen der relativen Anonymität von 
Kommunikationspartner*innen im Netz diskutiert, wobei ein vergleichs- 
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weise offensives, polarisierendes und extremes Diskursverhalten erwartet wird 
(Barber, 2001, S. 216). Entgegen den in den 1990er und 2000er Jahren noch 
verbreiteten euphorischen Positionen und demokratischen Versprechen (Rhein- 
gold, 1994), wurden die Chancen für demokratische Deliberation mithin von 
einem skeptischen Lager als schlecht eingeschätzt. So heißt es etwa bei Buch- 
stein (Buchstein, 1996, S. 601): „[d]er Umgang im Netz ist rauher und barscher 
geworden, die Anonymität wirkt zumeist als Schutzschild für verbale Grausam- 
keiten.“ Nachdem im Zuge des arabischen Frühlings die potenziell demokratie- 
fördernde Wirkung (bzw. deren Limitationen) digitaler Kommunikation debattiert 
wurde, sind es derzeit diese Schattenseiten, die im Fokus öffentlichen und 
wissenschaftlichen Interesses stehen. 

Trotz der genannten Besonderheiten zeigt sich insbesondere in der Rechts- 
praxis aber, so Heinze (2016, S. 85), dass ein Transfer bestehender Gesetze mög- 
lich und gängig ist. So urteilen Gerichte regelmäßig darüber, ab wann bspw. mit 
digitaler Kommunikation Öffentlichkeit hergestellt ist. Auch Gesetze, die auf 
die schriftliche Verbreitung von Hate Speech rekurrieren, wurden in der gericht- 
lichen Praxis als auf digitale Verbreitungsformen anwendbar befunden (Brown, 
2015, S.248; Schweppe etal., 2014, S. 12). Die Anwendbarkeit auch „alter“ 
gesetzlicher Regelungen ist meist prinzipiell möglich, sodass im Hinblick auf 
den Regulierungsgegenstand der Hassrede per se angesichts bestehender, teils 
europäisch und international harmonisierter Straftatbestände nicht von einer 
digitalpolitischen Regelungslücke auszugehen ist. 

Aus rechts- und politiktheoretischer Perspektive stellt sich angesichts 
der intensivierten Debatte über Hate-Speech-Regulierung in der digitalen 
Konstellation allerdings die bekannte Frage nach einer allgemeinen Recht- 
fertigung von Eingriffen in die Redefreiheit durch liberaldemokratische Regime 
in neuer Dringlichkeit. Einem „Free-Speech-Absolutismus“, wie er sich ins- 
besondere aus einer liberalen Auslegung des US-Verfassungsrechts entwickelt 
hat (Scanlon, 1972), kann sowohl aus rechtswissenschaftlicher als auch politik- 
theoretischer Sicht eine Absage erteilt werden. Dennoch sind die Handlungsspiel- 
räume einer „wehrhaften Demokratie“ auf diesem Feld normativ eng beschränkt 
(Sirsch, 2013; Sunstein, 1995). 


4 Regulierung von Online-Inhalten: Regeldefinition 
In der öffentlichen und wissenschaftlichen Debatte werden die Besonderheiten 


und genuin neuen Herausforderungen durch digitale Hassrede betont, und 
der Eindruck entsteht, dass dem Phänomen nicht mit etablierten Maßnahmen 


162 W. J. Schünemann und S. Steiger 


begegnet werden könne: „[...] we need to design a specific response to online 
hatred that requires us to think beyond the traditional measures usually adopted 
to combat physical hate crimes“ (Bakalis, 2016, S. 272). Diese Wahrnehmung 
hat ihre Berechtigung vor allem mit Blick auf durch die Digitalisierung drastisch 
gewandelte Kommunikationsumgebungen mit veränderten Veröffentlichungs- 
möglichkeiten und Regulierungsspielräumen. Medien- und Kommunikations- 
wissenschaften haben die veränderten Rahmenbedingungen für die Produktion 
und Verbreitung von Medieninhalten auf unterschiedlichen Stufen der Inter- 
netentwicklung, insbesondere im Hinblick auf soziale Medien, theoretisch und 
empirisch gründlich bearbeitet (stellvertretend für viele s. Benkler, 2006; Lessig, 
2008; Shirky, 2011). Vor diesem Hintergrund sind die Regulierungsspielräume für 
staatliche Autoritäten vielfach als gering eingestuft oder aus normativ-ethischen 
Gründen zurückgewiesen worden (Johnson & Post, 1996; Mueller, 2010, 2017; 
dazu kritisch: Goldsmith & Wu, 2006; Shearing & Wood, 2003). In jüngeren 
Jahren hat sich ein Forschungsstrang vor dem Hintergrund verschärfter Kritiken 
an der Verbreitung von Falschnachrichten und Hassrede insbesondere mit den 
redaktionellen Verantwortlichkeiten von Plattformen oder Intermediären und ent- 
sprechenden Koregulierungs-Arrangements für die Content-Regulierung befasst 
(Flew et al., 2019; van Dijck et al., 2018). 

Im Verbund mit der politischen Regulierungsdebatte erfüllt damit auch 
die wissenschaftliche Diskussion die aus einer historischen Betrachtung 
von Medienpolitik abgeleitete Erwartung nachholender Regulierungs- 
anstrengungen im Hinblick auf digitale Informations- und Kommunikations- 
märkte. Medien- und Kommunikationswissenschaftler*innen haben in diesem 
Zusammenhang vielfach festgehalten, dass Massenmedien seit jeher politischer 
Institutionalisierung unterliegen (Jarren, 2007) und dass technologischer Wandel 
im Mediensektor stets neue Regulierungsdebatten und -ansätze hervorgerufen 
hat (Schejter & Han, 2011, S. 245), die mit zeitlicher Verzögerung (,,zwei- 
stufiger Institutionalisierungsprozess“ als medienhistorische Regel, Stöber, 2007, 
S. 107) auch das neue Feld einer angepassten Regulierung unterwerfen und dabei 
pfadabhängig medienpolitischen Traditionslinien folgen. Allerdings steht die 
empirische Überprüfung dieser historisch-institutionalistischen Hypothese bis- 
lang für die aktuelle Entwicklung der digitalpolitischen Regulierung noch aus. 

In der Politikwissenschaft ist die Forschung zu Online-Content-Regulierung 
demgegenüber weiterhin überschaubar. Die meisten Arbeiten, die sich explizit 
mit der Online-Inhalteregulierung befassen, sind bislang auf dem Feld der Ver- 
gleichenden Politikforschung entstanden. Dabei hat vor allem die Regime- 
differenz die Annahmen zur Variation von Politikansätzen beeinflusst. So 
befasst sich ein dominanter Strang mit Online-Kontrolle und Zensurmaßnahmen 
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ausschließlich in autokratischen Regimen (Deibert, 2013; Deibert & Rohozinski, 
2010; Deibert etal., 2010; Hellmeier, 2016; Keremoglu & Weidmann, 2020; 
King et al., 2013; Pearce & Kendzior, 2012; Roberts, 2018; Rød & Weidmann, 
2015). Allerdings lassen sich damit Ergebnisse internationaler Vergleichs- 
studien zur Regulierungspraxis, die gesteigerte Aktivitäten auch fiir Demokratien 
dokumentieren (Freedom House, 2018, 2019, 2020, 2021), nicht erklären. Busch 
etal. haben diese von der dominanten Hypothese abweichenden Befunde auf- 
gegriffen und ihrerseits eine auf Demokratien bezogene Entwicklungsannahme 
formuliert. Demnach stelle sich die Frage, ob die gesteigerten Regulations- 
aktivitäten demokratischer Regime auf einen Lerneffekt zurückzuführen sind, 
wonach Demokratien von Autokratien lernen („Learning from Autocracies“, 
Busch et al., 2018; Busch, 2017; aber auch Gomez, 2004). Die Konvergenzhypo- 
these hat Vorteile darin, dass sie ein Erklärungsangebot für jüngere empirische 
Befunde in groß angelegten Vergleichsstudien bietet. Die tatsächlichen Über- 
prüfungen der Konvergenzannahme leiden indes ihrerseits an der Beschränkung 
auf liberale Demokratien. Damit besteht bis heute ein augenfälliger Mangel an 
regimetypübergreifenden Arbeiten zur Internetkontrolle im Allgemeinen und zur 
Online-Content-Regulierung im Besonderen (Ausnahmen bilden Stier, 2017; 
Timofeeva, 2006). 

Jenseits der Regimetypendifferenz wären dabei alternative Erklärungsfaktoren 
zu prüfen, etwa die historische Pfadabhängigkeit. Die medienwissenschaftliche 
Forschungstradition könnte hier in zweierlei Hinsicht aushelfen. Zum einen bietet 
sie einen differenzierten Blick auf die medienpolitische Regulierung über ver- 
schiedene Medientypen und technologische Entwicklungsstufen hinweg auch für 
Demokratien (Humphreys, 1996), zum anderen hält sie Typologien von Medien- 
systemen bereit, die womöglich geeigneter sind, Variationen in aktuell relevanten 
digitalpolitischen Regulierungsbereichen zu erklären (Hallin & Mancini, 2004). 


5 Umsetzung und Sanktionspraxis 


Bei der Sanktionspraxis werden in der Literatur prinzipielle Probleme sowie 
technische und praktische Limitationen thematisiert. Die globale Architektur 
des Netzes ermöglicht die Verbreitung von Hate Speech über Landesgrenzen 
hinweg, sodass Täter*innen und Opfer nicht zwangsläufig dem gleichen Rechts- 
rahmen unterliegen. Welche (Sanktions-)Maßnahmen durch welche Institutionen 
angewendet und vollstreckt werden können, bleibt so unklar. Der Versuch extra- 
territorialer Rechtsdurchsetzung ist immer wieder mit Problemen verbunden. In 
einem frühen Fall geriet bspw. Yahoo! zwischen die Fronten französischer und 
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amerikanischer Gerichtsentscheidungen, die Angebote von Nazi-Memorabilien 
als illegal bzw. legal einstuften und jeweils mit Sanktionen drohten (Banks, 2010, 
S. 235; Goldsmith & Wu, 2006). 

Insbesondere die rechtswissenschaftliche Forschung hat sich in diesem 
Kontext mit der internationalen Harmonisierung von Straftatbeständen der Hass- 
rede befasst. Prominente Beispiele hierfür sind das Zusatzprotokoll zum Überein- 
kommen über Computerkriminalität betreffend die Kriminalisierung mittels 
Computersystemen begangener Handlungen rassistischer und fremdenfeindlicher 
Art des Europäischen Rates (CoE, 2003) sowie der Rahmenbeschluss zur straf- 
rechtlichen Bekämpfung bestimmter Formen und Ausdrucksweisen von Rassis- 
mus und Fremdenfeindlichkeit der EU. Wohlwollend kommentieren die meisten 
Wissenschaftler*innen die Etablierung beiderseitiger Strafbarkeit, wodurch 
eine effiziente Strafverfolgung möglich werde. Kritisch werden allerdings die 
begrenzte Kommunalität der zeichnenden Staaten (insbesondere die Ablehnung 
der USA) sowie weite Interpretationsspielräume für nationale Regierungen 
gesehen (Alkiviadou, 2018; Bakalis, 2016; Banks, 2010). Aus medienwissen- 
schaftlicher Perspektive wird das Problem betont, kulturelle Ziele und national 
definierte Regeln auf transnational zirkulierenden Content anzuwenden (Schejter 
& Han, 2011, S. 250). 

Neben staatlicher Regulation haben sich Untersuchungen mit unterschied- 
lichen Aspekten der Selbstregulation von Kommunikationsplattformen befasst. 
Auf europäischer Ebene wird dieser Ansatz durch den 2016 verabschiedeten 
Code of conduct on countering illegal hate speech online verfolgt. Hierin sagen 
große Internetfirmen (Facebook, Microsoft, Twitter und YouTube) zu, Hate 
Speech auf ihren Plattformen effektiv zu begegnen (EU, 2016). Aber auch 
derartige freiwillige Selbstverpflichtungen der Plattformen wurden kritisch 
kommentiert, da diese sich damit widersprüchlichen Anforderungen öffneten 
und eine Fragmentierung von Inhalten befördern würden. So wurde insbesondere 
die Bereitschaft der US-Unternehmen kritisiert, dem Code of Conduct der EU 
zuzustimmen und so einer europäischen Lesart zu folgen, ohne die Erwartungen 
der US-Regierung zu bedenken und ohne einen Anschluss an internationale 
Normen der UN. Bedenklich hieran sei, dass sich die Unternehmen durch diesen 
Präzedenzfall schwerer anderen Anforderungen (bspw. aus Autokratien) ent- 
ziehen könnten. So könnte der Code of Conduct zur Legitimation ausgreifender 
Zensur instrumentalisiert werden (Aswad, 2016). Das Beispiel europäischer 
Regulierungsbemühungen erweitert den Blickwinkel auf die teils politisch, teils 
anders motivierten eigenen Regelapparate und Praktiken der Content-Regulierung 
durch Plattformen und andere Intermediäre selbst: „The power of platform 
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moderation to act effectively as a regulator of daily life is now evident“ (Gillespie 
et al., 2020, S. 21). 

Bemühungen gegen Hassrede finden sich auch in den Geschäftsbeziehungen 
zwischen Werbepartnern und Internetplattformen. Facebook geriet 2020 
unter Druck, aktiver gegen Hass auf der eigenen Plattform vorzugehen, nach- 
dem mehr als 1000 Unternehmen beschlossen hatten, im Zuge der Kampagne 
#StopHateForProfit ihre Werbeanzeigen bei Facebook zu pausieren. Dies hatte 
unmittelbare Auswirkungen auf den Aktienkurs und Mark Zuckerberg versprach 
in der Folge, mehr gegen die Verbreitung von Hassrede zu unternehmen (He 
et al., 2021). 

Eine Form der Selbstregulierung besteht in der eigenständigen (teil- 
weise automatisierten) Moderation und Löschung von Inhalten anhand selbst 
gesetzter Community-Standards. Wissenschaftler*innen haben sich mit der 
Effektivität dieser Maßnahmen auf unterschiedlichen Plattformen beschäftigt. 
Befunde in diesem Kontext sind jedoch unterschiedlich. Während einige 
Studien zu dem Schluss kommen, dass große Wellen der Inhalteregulierung 
und Kontensperrungen effektive Maßnahmen zur Verbesserung der Diskurs- 
qualität seien (Chandrasekharan et al., 2017; Saleem & Ruths, 2018), wider- 
sprechen andere Untersuchungen dieser Einschätzung. Sie betonen vor allem 
die Ausweichbewegungen der Nutzer*innen zu anderen, weniger regulierten 
Plattformen (Newell et al., 2016) oder die Herausbildung eines neuen Sprach- 
gebrauchs, der nicht unmittelbar als Hassrede erkennbar ist (Chancellor et al., 
2016). Zudem bestehen Bedenken, dass Plattformen über ihre selbstmotivierte 
Content-Moderation eine faktische extraterritoriale Wirkung US-amerikanischer 
Wertevorstellungen in Bezug auf schädliche Inhalte hervorrufen (Gillespie et al., 
2020). Allgemein wird die Verantwortlichkeit von privatwirtschaftlichen Inhalte- 
anbietern bei der Konstitution und Bereinigung öffentlicher Debattenräume 
kritisch diskutiert (Arpagian, 2016). 

Wie die zuletzt thematisierten Aspekte verdeutlichen, erfordert der medien- 
wissenschaftlich in Teilen aufgearbeitete Strukturwandel hin zu einer Plattform- 
gesellschaft und zunehmenden Plattformisierung des Netzes (Gillespie, 2018; 
van Dijck etal., 2018) neue digitalisierungsspezifische Perspektiven auf die 
Inhalteregulierung. Dementsprechend machen Autor*innen auf dem Feld der 
kritischen Internetstudien in einem aktuellen Special Issue des Internet Policy 
Review darauf aufmerksam (Gillespie et al., 2020), dass weder die Fokussierung 
auf eine Topdown-Perspektive staatlicher Regulierung noch auf die im Fokus der 
öffentlichen Aufmerksamkeit stehenden großen Plattformen (Facebook, Google 
etc.) dem für heutige Informationsökosysteme wesentlichen und allfälligen 
Phänomen der Content-Regulierung (also auch im Sinne der verschiedentlich 
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motivierten Content-Moderation durch diverse Anbieter selbst) gerecht werden 
(Boberg et al., 2018). Daraus werden künftige Forschungsdesiderate abgeleitet, 
die etwa auch das Machtgefälle zwischen Plattformen und die entsprechenden 
Regelsetzungen durch infrastrukturelle Plattformen untersuchen, die potentielle 
Innovationsfeindlichkeit von regulatorischen Vorgaben im Startup-Bereich, die 
kritische Frage von Content-Regulierung für verschlüsselte Kommunikation 
(z.B. WhatsApp), und natürlich nicht zuletzt die ethischen, rechtlichen und 
politiktheoretischen Grenzen algorithmischer Governance (Gillespie etal., 
2020; zur Regulierung von Big Data und Künstlicher Intelligenz und Hassrede 
s. Katzenbach & Ulbricht, 2019; Ulbricht, 2019; spezifisch zu KI und Hassrede: 
Finck, 2019). 


6 Fazit 


In den vorangegangenen Abschnitten haben wir einen kursorischen Über- 
blick über die Forschung zur Regulation von Hassrede als Teil der zunehmend 
relevanten Online-Inhalteregulierung präsentiert. Zunächst geben rechtswissen- 
schaftliche und politiktheoretische Schriften nur wenig Anlass für eine Neu- 
definition des Regulierungsgegenstands oder neue Definitionen von Hassrede im 
Online-Zeitalter. Vielmehr erweisen sich hergebrachte gesetzliche Regelungen in 
unterschiedlichen Jurisdiktionen als anwendbar. Betont werden dabei die engen 
Grenzen, in denen liberale Demokratien berechtigt sind, die Redefreiheit zu 
begrenzen. Eine verschwommene Trennung zwischen öffentlicher und privater 
Kommunikation erscheint vielen Beobachter*innen aber in der Rechtspraxis 
weniger problematisch, als von Skeptiker*innen befürchtet. Nicht die Trennung, 
aber eine mit der digitalen Kommunikation verbundene größere und unmittelbar 
ansprechbare Öffentlichkeit wird als eine neue Herausforderung gesehen. 

Im Hinblick auf die internationale politische Regulation digitaler 
Kommunikation scheint die verbreitete These eines weitgehend unregulierten 
oder schwach regulierten digitalen Kommunikationsraumes — dessen Staatsferne 
mitunter aus normativer Perspektive begrüßt worden ist — zunehmend unhalt- 
bar. Stattdessen ist hier tatsächlich eine nachholende Entwicklung der Medien- 
regulation zu beobachten. Aus politikwissenschaftlicher Perspektive haben 
sich die meisten empirischen Studien bislang mit unterschiedlichen Praktiken 
der Inhalteregulierung (Zensur) in Autokratien befasst. Neuere Entwicklungen 
der Inhalteregulierung durch Demokratien wurden dabei seltener in den Blick 
genommen. Hier ist angesichts neuerer regimeübergreifender Trends eine breitere 
vergleichende Forschungsperspektive erforderlich. 
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Mit Blick auf die Umsetzung und Sanktionspraxis haben sich rechtswissen- 
schaftliche Untersuchungen mit internationalen Regelungen zur Harmonisierung 
von Straftatbeständen und deren Problemen befasst. Vor allem abweichende 
Wertvorstellungen und Traditionen der Medienregulation erschweren die Ent- 
wicklung internationaler Standards. Im Kontext plattformgesteuerter Selbst- 
regulation als digitalisierungsspezifischem Phänomenbereich haben sich Studien 
mit Moderationspraktiken von Anbietern unterschiedlicher sozialer Medien 
im Umgang mit nutzergenerierten Inhalten befasst. Dabei hat die Forschung 
algorithmische Governance und deren Kontrollmöglichkeiten problematisiert. 
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„Ihr gehört nicht dazu!” Soziale 
Ausgrenzung durch Hate Speech als 
Problem für liberale Demokratien 


Doris Unger und Jürgen Unger-Sirsch 


1 Einleitung 


Formen von Rede, die bestimmte Gruppen herabwürdigen, werden unter dem 
Begriff „Hate Speech“ bzw. „Hassrede“ zusammengefasst (Parekh, 2006). Mit 
der steigenden Relevanz von sozialen Medien hat auch das Phänomen Hate 
Speech eine neue Konjunktur erfahren. Die Verfügbarkeit von sozialen Medien 
hat die Teilnahme an öffentlichen Diskursen erheblich erleichtert (Mondal et al., 
2017). Dies gilt jedoch auch für diejenigen, die liberal-demokratische Grund- 
werte wie Toleranz und die Anerkennung anderer gesellschaftlicher Gruppen als 
prinzipiell gleichwertige Mitglieder der Gesellschaft ablehnen. Hate Speech und 
damit negative Einstellungen insbesondere gegenüber Minderheiten haben so eine 
neue Sichtbarkeit erfahren. 

Diese neue Sichtbarkeit und Verbreitung von Hate Speech im öffentlichen 
Raum kann zu einer feindlichen Umgebung für jene führen, die regelmäßg durch 
Hate Speech diffamiert werden. Dies kann wiederum zur Folge haben, dass die 
Betroffenen sich aus den jeweiligen Räumen zurückziehen, ihren Mitmenschen 
weniger vertrauen und Karrierechancen sowie andere Chancen der Selbstver- 
wirklichung nicht in Anspruch nehmen. In einer Gesellschaft zu leben, in der 
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man sich regelmäßig Diffamierungen gegen die eigene Bevölkerungsgruppe aus- 
gesetzt sieht, reduziert so nicht nur die Lebensqualität, sondern auch die Teil- 
habechancen der Betroffenen. Vor diesem Hintergrund macht es Sinn, sich mit 
den Folgen einer stärkeren Verbreitung von Hate Speech auseinanderzusetzen. 
In unserem Beitrag möchten wir daher aus moralischer Perspektive analysieren, 
inwiefern diese negativen Folgen eine Regulierung und Einschränkung von Hate 
Speech rechtfertigen. Als Grundlage der Beurteilung dienen uns liberal-demo- 
kratische Grundwerte, die beispielsweise von John Rawls (2005) formuliert 
werden. Der Fokus liberaler Positionen liegt traditionell auf möglichen Folgen 
von Hate Speech für den sozialen Frieden sowie dem Zusammenhang zwischen 
Hate Speech und Hassverbrechen. Eine erhöhte Sichtbarkeit von Hassrede und 
den zugrundeliegenden Einstellungen hat durchaus das Potenzial, den sozialen 
Frieden nachhaltig zu gefährden. Allerdings liegt der Fokus der Begründungen 
von Restriktionen von Hate Speech bisher auf negativen Folgen, wie Hassver- 
brechen, die zwar relativ einfach zu beobachten sind, bei denen es aber schwierig 
ist, sie direkt kausal mit konkreten Äußerungen zu verbinden.' Die allgegen- 
wärtige Verbreitung von Hate Speech auf der einen Seite und die vergleichsweise 
relative Seltenheit von Hassverbrechen — zumindest in liberalen Demokratien, die 
wir hier als Kontext voraussetzen — auf der anderen Seite machen es schwierig, 
eine direkte Schädigung der Opfer von Hassverbrechen durch einzelne Hass- 
redner*innen zu begründen. Vor dem Hintergrund dieses eher schwachen 
und in den meisten Fällen indirekten Zusammenhangs sowie der zentralen 
Bedeutung der Redefreiheit für liberale Demokratien wird daher von liberalen 
Theoretiker*innen eine generelle Regulierung von Hate Speech immer wieder in 
Frage gestellt (Cohen, 1993; Dworkin, 2009; Mill, 1977; Scanlon, 1972). 

Aus diesen Gründen konzentrieren wir uns in diesem Beitrag auf die sozialen 
Folgen, die durch die größere Verbreitung von Hassrede an sich verursacht 
werden. Hierbei legen wir den Fokus auf Auswirkungen eines durch Hassrede 
geprägten sozialen Klimas für betroffene Minderheiten oder vulnerable soziale 
Kategorien von Menschen, wie sie etwa von Waldron (2012) sowie Delgado und 
Stefancic (2004) thematisiert werden. Das durch Hate Speech vergiftete soziale 
Klima entsteht direkt aus den einzelnen öffentlichen Redebeiträgen? und es kann 
angenommen werden, dass dies den Intentionen der Sprecher*innen entspricht 


! Für einen solchen Versuch siehe Mathew et al. (2019). 


?Vgl. hierzu den Zusammenhang zwischen Kausalität und Verantwortung in Tiefensee 
(2019). 
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und dass sie hierfür verantwortlich gemacht werden können, weil die Effekte auf 
das soziale Klima entweder intendiert sind oder (fahrlässig) in Kauf genommen 
werden (Lepoutre, 2017, S. 5; Waldron, 2012, S. 2, 5). Vor diesem Hintergrund 
stellt sich die Frage für liberale Theoretiker*innen neu, inwiefern die Berück- 
sichtigung dieser Effekte eine umfassende Beschränkung von Hassrede recht- 
fertigt. 

Die Regulierung von Hate Speech stellt insbesondere aus liberaler Perspektive 
ein Dilemma für liberale Demokratien dar: Einerseits macht eine Beschränkung 
Sinn, um besonders verwundbare Gruppen vor verbalen Angriffen zu schützen, 
andererseits stellt die Meinungsfreiheit in liberalen Demokratien ein besonders 
schützenswertes Gut dar (Dworkin, 2009; Mill, 1977). Innerhalb dieses 
Spannungsfeldes bewegt sich unser Beitrag. Unsere Forschungsfragen lauten: Ist 
eine Regulierung von Hate Speech überhaupt rechtfertigbar? Welche Ziele sollte 
eine Regulierung von Hate Speech verfolgen? 

Bei der Beantwortung dieser Fragen werden wir von relativ unkontroversen 
liberal-demokratischen Grundwerten ausgehen, wie sie etwa von John Rawls 
(1999, 2001, 2005) formuliert werden. Wir werden für drei zentrale Ziele 
argumentieren, an der sich staatliche Regulierungen von Hate Speech orientieren 
sollten. Als Ausblick gehen wir kurz auf das Beispiel der Regulierung von Hass- 
ausdrücken (gruppenspezifischen Schimpfwörtern) ein, um weitere praktische 
Hürden einer Regulierung aufzuzeigen, die sich aus unserer Position ergeben. 
Wir kommen zu dem Ergebnis, dass Hate Speech unter bestimmten Bedingungen 
reguliert werden sollte, dass die Beurteilung von Hasskommentaren allerdings 
hochgradig vom Kontext abhängig ist. 

Unser Beitrag ist wie folgt gegliedert: Zuerst erläutern wir unser Verständ- 
nis von Hate Speech als Form von Rede, die die Gleichheitsprämisse liberaler 
Demokratien verletzt. Zweitens beschäftigen wir uns mit den Schädigungen 
und Verletzungen, die durch Hate Speech entstehen können. Drittens gehen wir 
darauf ein, welche Bedeutung der Meinungsfreiheit in einer liberalen Demo- 
kratie zukommt. Viertens bringen wir beide Aspekte zusammen und nennen 
Implikationen für die Regulierung von Hate Speech. Fünftens gehen wir als 
Ausblick auf ein Beispiel ein — nämlich auf die Regulierung und das Verbot 
von Hassausdrücken für bestimmte Gruppen. Besonders solche Ausrücke 
könnte man in Internetforen und Chatrooms verhältnismäßig einfach mithilfe 
von Algorithmen identifizieren und (bereits vor dem Erscheinen) löschen bzw. 
Nutzer*innen auf dieser Grundlage auf die Übertretung von Verhaltensregeln hin- 
weisen. 
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2 Hate Speech als Gruppendiffamierung 


Wenn wir von „Hate Speech“ oder „Hassrede“ sprechen, dann meinen wir damit 
Äußerungen, die eine Person oder Gruppe mit Bezug zu einer Gruppe oder einem 
(vermeintlichen) gruppenspezifischen Merkmal diffamieren. Das bedeutet, dass 
durch Hassrede immer eine bestimmte Gruppe bzw. soziale Kategorie degradiert 
wird, weshalb Hate Speech auch als „Verleumdung von Gruppen“ charakterisiert 
werden kann (Waldron, 2012, Kap. 3). Das gilt auch dann, wenn eine spezifische 
Person mit Bezug auf ihre Gruppenzugehörigkeit adressiert wird. Fehlt dieser 
Gruppenbezug, dann kann es sich zwar um eine Beleidigung handeln, aber nicht 
um Hate Speech. 

Hate Speech zeichnet also aus, dass Individuen oder Gruppen aufgrund ihrer 
Zugehörigkeit zu einer sozialen Gruppe oder Kategorie herabgewürdigt werden. 
Hassrede kann beispielsweise rassistisch, sexistisch oder homophob sein, so 
dass hiervon völlig unterschiedliche Gruppen betroffen sein können. Individuen 
müssen sich noch nicht einmal selbst einer spezifischen Gruppe zuordnen um 
Opfer von Hassrede zu werden, da es schon ausreicht, dass andere Individuen 
diese Zuordnung vornehmen. Somit kann es sein, dass etwa bei der Diffamierung 
einer religiösen Gruppe auch Individuen betroffen sind, die sich gar nicht mit 
dieser Gruppe identifizieren. Es kann sich ebenso schlicht um eine sozial saliente 
Kategorie von Individuen handeln, die von anderen als Gruppe mit spezifischen 
Eigenschaften angesehen wird. 

Obwohl Hassrede prinzipiell an alle Arten von Gruppen gerichtet sein kann, 
sind es jedoch meist Minderheitengruppen, die Gegenstand von Hassrede 
sind. Auch tritt Hassrede häufig gegenüber Gruppen auf, die bereits auf eine 
Geschichte der Benachteiligung und Diskriminierung zurückblicken müssen. 
Diese Konzentration des Phänomens Hassrede auf Minderheitengruppen macht, 
wie wir zeigen werden, die Folgen deutlich problematischer, da Minderheiten 
meistens ohnehin schon in einer benachteiligten Position sind. Angehörige dieser 
Gruppen leiden häufig bereits unter strukturellen Nachteilen (im Sinne von ver- 
stetigten Nachteilen für diese Gruppen in verschiedenen Lebensbereichen, die 
institutionalisiert sind (Jugov & Ypi, 2019, S. 7)). Denn diese Nachteile können 
durch ein Umfeld, das durch Hassrede gegenüber diesen Gruppen charakterisiert 
ist, noch verstärkt werden. Hierdurch besteht die Gefahr einer verstärkten 
Perpetuierung von struktureller Benachteiligung, weil beispielsweise Individuen, 
die sich in einem von Hassrede charakterisierten Umfeld bewegen, weniger 
leistungsfähig sind (Brison, 1998). 
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3 Negative Folgen von Hate Speech und die 
Gründe für eine Regulierung 


Warum sollte Hate Speech nun überhaupt reguliert werden? Hate Speech sollte 
in erster Linie aufgrund der negativen Auswirkungen reguliert werden, die mit 
einer Verbreitung von Hassrede einhergehen (Delgado & Stefancic, 2004; Levin, 
2010; Waldron, 2012). In diesem Abschnitt gehen wir zuerst auf die sozialen 
Folgen von Hate Speech ein, die auch im Zentrum unserer weiteren Diskussion 
stehen werden. Danach kommen wir kurz auf die individuellen psychischen und 
physischen Folgen zu sprechen. 

Unter den sozialen Folgen lassen sich zwei Arten negativer Auswirkungen 
unterscheiden: Auf der einen Seite kann Hate Speech zur Verbreitung von Hass 
auf bestimmte Gruppen und zur Verbreitung von Einstellungen beitragen, die 
nicht kompatibel mit einer liberalen Demokratie sind. Deshalb wird häufig 
aus der Perspektive einer „wehrhaften Demokratie“ (Loewenstein, 1937) für 
eine Regulierung zumindest bestimmter Formen von Hassrede argumentiert 
(vgl. die „Volksverhetzung“ in Deutschland). Darüber hinaus lässt sich auch 
ein Zusammenhang zwischen dem Auftreten von Hate Speech und Hassver- 
brechen feststellen (Dharmapala & McAdams, 2003). Zusätzlich wissen wir, 
dass massivste Menschenrechtsverletzungen — wie Völkermorde und „ethnische 
Säuberungen“ — durch systematische Hate-Speech-Kampagnen begleitet und vor- 
bereitet werden (Baker, 2009; Bellamy, 2014, S. 33; Tsesis, 2002). 

Der Zusammenhang zwischen dem Aufkommen von Hassrede und Ver- 
brechen gegen Gruppen ist äußerst relevant für die Bewertung von möglichen 
Beschränkungen von Hassrede und wird deshalb in unserer abschließenden 
Argumentation berücksichtigt (siehe Kap. 4). Wir konzentrieren uns in diesem 
Aufsatz jedoch auf negative soziale Folgen von Hate Speech für Minderheiten, 
die unterhalb der Schwelle von physischer Gewalt bleiben, da es sich hierbei um 
ein viel verbreiteteres Phänomen handelt, das zudem für liberale Gesellschaften 
ebenso relevant ist und bisher in der Diskussion weniger Beachtung gefunden hat 
(Lepoutre, 2017; Waldron, 2012). Zudem treten diese Folgen von Hate Speech 
auch in Gesellschaften auf, in denen Hate Crimes keine oder nur eine sehr 
geringe Rolle spielen. 

Der politische Philosoph Jeremy Waldron thematisiert die Auswirkungen, die 
Hate Speech besonders auf Personengruppen haben kann, die dieser häufig aus- 
gesetzt sind und die zu verwundbaren Minderheiten gehören. In seinem Buch The 
Harm in Hate Speech (2012) argumentiert er, dass das Erscheinungsbild einer 
Gesellschaft durch Hate Speech verändert wird, was gravierende Auswirkungen 
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auf die individuelle Lebensführung für Angehörige von degradierten Gruppen 
haben kann. Das Auftreten von Hate Speech beeinflusst das Erscheinungsbild 
einer Gesellschaft grundlegend: Wenn Hate Speech in einer Gesellschaft ver- 
breitet ist und Angehörige von betroffenen Gruppen Hate Speech in den sozialen 
Medien, in Zeitungen, auf Plakaten oder am Arbeitsplatz ausgesetzt sind, dann 
verändert dies die gegenseitige Wahrnehmung der Gesellschaftsmitglieder und 
unterminiert das grundlegende Sicherheitsgefühl von betroffenen Personen- 
gruppen. 

Im Alltag sind wir darauf angewiesen, dass andere Individuen uns als gleich- 
wertige Personen betrachten und unsere grundlegenden Rechte respektieren. Die 
gegenseitige Zusicherung dieses gleichen Wertes ist eine Voraussetzung dafür, 
dass sich Individuen in der Gesellschaft bedenkenlos bewegen können und dass 
sie politisch, ökonomisch und kulturell mit anderen zusammenarbeiten können. 
Ist diese Voraussetzung nicht gegeben, begegnen Individuen anderen, die nicht 
zu ihrem engsten Kreis gehören, mit Misstrauen. Dies erschwert zumindest 
gesellschaftliche Kooperation oder macht sie sogar unmöglich. Waldron betont 
daher, dass das gesellschaftliche Zusammenleben auf dem öffentlichen Gut 
der gegenseitigen Zusicherung grundlegender Rechte beruht (Waldron, 2012, 
S. 82 f.). Von diesem öffentlichen Gut, sofern es in ausreichendem Maße vor- 
handen ist, profitieren alle Individuen einer Gesellschaft. Es wird dadurch 
erhalten, dass Individuen sich diese Zusicherung gegenseitig explizit oder 
implizit geben. Darüber hinaus unterstützt der Staat dieses öffentliche Gut, indem 
er die Rechte von Individuen gegenüber anderen Individuen und gegenüber dem 
Staat selbst schützt (Waldron, 2012, S. 80). 

Da es sich beim Gut der gegenseitigen Zusicherung grundlegenden 
Respektes um eine Voraussetzung dafür handelt, dass Individuen ihre jeweiligen 
Konzeptionen des guten Lebens verfolgen können, handelt es sich hierbei in 
den Worten von John Rawls um ein essenzielles Grundgut. Grundgüter sind 
definiert als Güter, die Individuen zur Realisierung jeglicher vernünftiger Lebens- 
pläne benötigen. Dazu zählen grundlegende Rechte, Chancen und Einkommen 
(Rawls, 2001, S. 57). Für Rawls gehören aber auch die sozialen Grundlagen des 
Selbstrespekts zu den Grundgütern, die aus einer Perspektive der Gerechtig- 
keit bedeutend sind. Für das Vorliegen dieses Grundguts muss eine gegenseitige 
Zusicherung gleichen Respekts in der Gesellschaft vorherrschen — allerdings 
ist sie auch eine Voraussetzung dafür, dass Individuen die anderen Grundgüter 
effektiv nutzen können. 

Die Verbreitung von Hate Speech kann das essenzielle öffentliche Grundgut 
der gegenseitigen Zusicherung des gleichen sozialen Status und der gleichen 
Würde gefährden, denn genau dieser gleiche soziale Status wird durch Hate 
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Speech in Frage gestellt. Angehörige von Gruppen, die regelmäßig und sichtbar 
Gegenstand von Hate Speech sind, müssen davon ausgehen, dass zumindest Teile 
der Gesellschaft ihre Gleichwertigkeit und gleichberechtigte Teilhabe in Frage 
stellen (Waldron, 2012, S. 85). Eine solche feindliche Umgebung ruft Angst und 
Minderwertigkeitsgefühle hervor und kann so dazu führen, dass die Teilhabe der 
betroffenen Personengruppen in Politik, Ökonomie und Kultur zurückgeht und so 
wiederum die Lebenschancen dieser Menschen stark reduziert werden. 

Waldron veranschaulicht die Relevanz dieses sozialen Klimas einer Gesell- 
schaft an einem Beispiel: 


„A man out walking with his seven-year-old son and his ten-year-old daughter 
turns a corner in a city street in New Jersey and is confronted with a sign. It says: 
“Muslims and 9/11! Don’t serve them, don’t speak to them, and don’t let them in.’ 
The daughter says, “What does it mean, papa?’ Her father, who is a Muslim - the 
whole family is Muslim — doesn’t know what to say. He hurries the children on, 
hoping they will not come across any more of the signs.“ (Waldron, 2012, S. 1) 


Waldron zufolge transportiert Hate Speech folgende Botschaft, besonders wenn 
Personengruppen regelmäßig mit diesen Aussagen konfrontiert werden: 


„I know you think you are our equals. But don’t be so sure. The very society you are 
relying on for your opportunities and your equal dignity is less than whole-hearted 
in its support for these things, and we are going to expose that half-heartedness and 
build on that ambivalence every chance we get. So: think about it and be afraid. The 
time for your degradation and your exclusion by the society that presently shelters 
you is fast approaching.“ (Waldron, 2012, S. 96) 


In dieser Hinsicht ist Hate Speech umso schädlicher, je sichtbarer sie in der 
Gesellschaft ist, da sie so den größten negativen Beitrag zur Unterminierung der 
Zusicherung gleichen Respekts hat (Waldron, 2012, S. 37). Dies sieht Waldron 
demnach auch als das zentrale Problem an, das Hate Speech in der Gesellschaft 
verursacht: 


„Ihe issue is publication and the harm done to individuals and groups through 
the disfiguring of our social environment by visible, public, and semipermanent 
announcements to the effect that in the opinion of one group in the community, 
perhaps the majority, members of another group are not worthy of equal 
citizenship.“ (Waldron, 2012, S. 39) 


Je sichtbarer Hate Speech im öffentlichen Raum ist, desto stärker haben 
Individuen, die sich selbst betroffenen Gruppen zuordnen — oder regelmäßig 
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durch andere diese Zuordnung erfahren — Anlass zu zweifeln, dass für sie persön- 
lich die gegenseitige Zusicherung grundlegender Rechte gilt und effektiv durch- 
gesetzt wird. 

Man könnte nun einwenden, dass Waldrons Argumentation die staatliche 
Garantie dieser grundlegenden Rechte außer Acht lässt: Solange der Staat grund- 
legende Rechte schützt, könnten sich vulnerable Gruppen auf diesen Schutz 
verlassen. Sie sind somit nicht auf die symbolische Unterstützung ihrer Rechte 
durch andere Privatpersonen angewiesen. Und natürlich macht der staatliche 
Schutz einen großen Unterschied. Trotzdem sollte die Relevanz von Waldrons 
Argument nicht unterschätzt werden. Das Fehlen der gegenseitigen Zusicherung 
gleicher Anerkennung grundlegender Rechte kann tatsächlich hinreichend sein, 
um die effektive Geltung dieser Rechte zu verhindern, auch wenn sie von staat- 
licher Seite geschützt werden. Die Unterscheidung zwischen bloß formaler und 
realisierter Rechtsstaatlichkeit macht den Unterschied noch klarer: Im liberalen 
Denken wird dem Staat zwar die Aufgabe zugesprochen, grundlegende Frei- 
heiten zu schützen und dafür muss Rechtsstaatlichkeit herrschen. Es reicht jedoch 
nicht, wenn Rechte bloß formal bestehen — sie müssen auch effektiv durch- 
gesetzt werden. Rechte können jedoch in großen komplexen Gesellschaften nicht 
ausschließlich durch staatliche Gewalt durchgesetzt werden. Rechtsgeltung und 
-durchsetzung erfordert immer auch die freiwillige Mitwirkung der großen Mehr- 
heit der Bevölkerung aus Überzeugung sowie den verbreiteten Glauben an die 
Geltung des Rechts (Kliemt, 1996, S. 174 f.). Schon die fehlende Kooperation 
einer kleinen Minderheit kann die effektive Geltung von Recht unterminieren. 
Dies stellt insbesondere für die Geltung der Rechte von Minderheiten eine 
Bedrohung dar. Besonders wenn Teile der Mehrheitsgesellschaft, die Positionen 
in der Justiz oder bei der Polizei innehaben, bei Verbrechen gegen Angehörige 
der Minderheit systematisch wegschauen, wird staatlicher Schutz schnell weniger 
effektiv. Auch kann der Staat nicht alle Individuen einer Minderheit in Vollzeit 
mit polizeilichen Mitteln schützen. Das bedeutet, dass feindliche Übergriffe 
schon bei einer kleinen Anzahl potenzieller Täter*innen nicht mehr effektiv ver- 
hindert werden können. 

Aus diesen Gründen reicht schon das vermehrte Auftreten von Hate Speech im 
öffentlichen Raum aus, um Angehörigen angefeindeter Gruppen zu signalisieren, 
dass sie im öffentlichen Raum einem größeren Risiko ausgesetzt sind, verbal oder 
körperlich attackiert zu werden. Auf diese Weise signalisiert das Auftreten von 
Hate Speech den betroffenen Individuen, dass ihre Grundrechte womöglich nicht 
wirklich effektiv geschützt werden können, da die für die effektive Rechtsgeltung 
notwendige Akzeptanz dieser Rechte möglicherweise nicht hinreichend gegeben 
ist. 
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Dies spiegelt sich auch in den individuellen Auswirkungen einer „hasserfüllten 
Umgebung“ (Brison, 1998, S. 13) wider: Das Vorkommen von Hate Speech 
in einem sozialen Raum schafft für Betroffene eine hasserfüllte Umgebung. 
Individuen, die einer hasserfüllten Umgebung ausgesetzt sind, leiden häufig 
unter psychischen und physischen Auswirkungen (Degaldo & Stefancic, 2004, 
S. 12-14): So kann Hassrede bei den Betroffenen zu Kopfschmerzen, erhöhtem 
Blutdruck, Angstzuständen oder Depression führen. 


4 Die Bedeutung der Meinungsfreiheit für die 
liberale Demokratie 


Wenn Hate Speech so viele negative Folgen hat, dann stellt sich die Frage, wieso 
es aus liberal-demokratischer Perspektive überhaupt problematisch sein sollte, 
Hassrede zu beschränken. Wie alle Freiheitsbeschränkungen ist aber auch die 
Beschränkung von Hate Speech begründungswürdig. Die zentrale Rolle bei der 
Diskussion rund um die Regulierung von Hate Speech spielt dabei die Meinungs- 
freiheit und ihre Bedeutung für die liberale Demokratie. 

Die Meinungsfreiheit zählt zu den individuellen Freiheitsrechten, die einen 
Freiheitsraum definieren, den Regierung und Gesellschaft in einem liberalen Staat 
gegenüber jedem Individuum und auch gegenüber Angehörigen von Minder- 
heiten sowie Dissidentinnen und Dissidenten garantieren sollten. Dieser Frei- 
heitsraum ist der zentrale Gehalt des liberalen Elements der liberalen Demokratie 
und soll auch explizit diejenigen, die eine abweichende Meinung oder einen 
abweichenden Lebensstil pflegen, gegen die Meinungen und Eingriffe der Mehr- 
heit schützen. 

Selbst individuelle Freiheitsrechte sind aber notwendigerweise begrenzt, da 
durch Freiheitsausübung vergleichbare wichtige Werte verletzt werden können. 
Eine naheliegende Grenze von Freiheitsrechten ist so die Verletzung von Rechten 
anderer und die Abwägung von vergleichbar grundlegenden Rechten ist eine 
gebräuchliche Praxis in liberalen Rechtsstaaten. Im Zusammenhang mit Hate 
Speech stellt sich daher die Frage, ob durch Hate Speech ein mit der Meinungs- 
freiheit vergleichbares Recht verletzt wird. Für bestimmte Arten von Hate Speech 
ist diese Frage recht einfach zu beantworten: Wenn Hate Speech zu Gewalt auf- 
ruft oder in einer bestimmten Situation dazu anstachelt, dann liegt eine klare 
(Gefährdung für eine) Verletzung eines grundlegenden Rechtes, nämlich des 
Rechts auf körperliche Unversehrtheit von Personen, die der diffamierten Gruppe 
angehören, vor (Mill, 1977, S. 260; Rawls, 2005, S. 336). Eine Einschränkung 
von Hate Speech in solchen Fällen ist daher durchaus geboten. Entsprechend wird 
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Hate Speech, die zu Gewalt aufstachelt, auch von liberalen Rechtsstaaten in aller 
Regel unter Strafe gestellt. 

Schwieriger ist dagegen die Einschätzung der oben skizzierten sozialen 
Folgen von Hate Speech und die Frage, ob die Meinungsfreiheit auch bei ihrem 
Auftreten eingeschränkt werden sollte. Hate Speech spricht den Angehörigen 
degradierter Gruppen ihre Gleichwertigkeit und gleiche Würde ab. Besonders 
bei Personen, die dauerhaft und regelmäßig Hate Speech ausgesetzt sind, kann 
dies dazu führen, dass sie durch Angst und dem Gefühl der Ausgrenzung, wenn 
schon nicht an den Rand der Gesellschaft gedrängt werden, so doch zumindest 
weniger am gesellschaftlichen Leben teilnehmen und weniger Chancen wahr- 
nehmen. Es handelt sich hierbei aber nicht um eine Verletzung von Rechten, weil 
die Betroffenen nicht direkt davon abgehalten werden, ihre Freiheiten auszuüben. 
Das heißt, formal büßen die Angehörigen von Gruppen, die solchem sozialen 
Druck und solchen Feindseligkeiten ausgesetzt sind, nicht ihre Freiheiten ein. Das 
Auftreten der oben skizzierten sozialen Schädigungen impliziert aber durchaus, 
dass sie über ein deutlich reduziertes Vermögen verfügen, ihre formalen Frei- 
heiten auch nutzen zu können. 

In den Worten von John Rawls kann man sagen, dass nicht der Umfang ihrer 
Freiheiten, sondern der „Wert ihrer Freiheitsrechte“ durch Hate Speech unter- 
miniert wird. Rawls definiert den Wert der Freiheit als „the usefulness to persons 
of their liberties“ (Rawls, 2005, S. 326) und er betont: „the worth of liberty to 
persons and groups depends upon their capacity to advance their ends“ (Rawls, 
1999, S. 179). Für Rawls ist es gar das Ziel sozialer Gerechtigkeit, diesen Wert 
der gleichen Freiheit für diejenigen zu maximieren, die in einer Gesellschaft 
am schlechtesten gestellt sind. Dem Wert der Freiheit kommt diese zentrale 
Bedeutung zu, weil Menschen zwar alle möglichen formalen Freiheiten haben 
können, aber diese ihnen letztendlich nicht viel wert sind, wenn sie nicht die 
Möglichkeit haben, die Freiheiten auch zu nutzen. Dazu brauchen sie neben 
den formalen Freiheitsrechten weitere „soziale Grundgüter“, wie Chancen, Ein- 
kommen oder die sozialen Grundlagen des Selbstrespekts (Rawls, 1999, S. 54 f., 
179). Diese Unterscheidung von Rawls in Freiheiten und den Wert der Freiheit 
bietet eine gute Grundlage dafür, über die sozialen Folgen von Hate Speech nach- 
zudenken: Denn Waldron erläutert eindringlich, wie Angehörige von Gruppen, 
die vermehrt Hate Speech ausgesetzt sind, weniger Chancen auf die Teilhabe 
an den verschiedensten gesellschaftlichen Aktivitäten haben und wie ihnen die 
soziale Grundlage des Selbstrespekts entzogen wird. 

Der Wert der Freiheit ist allerdings innerhalb von Gesellschaften notwendiger- 
weise ungleich verteilt, zumindest so lange Individuen beispielsweise über unter- 
schiedliche Einkommen verfügen und um attraktive Arbeitsstellen und Ämter 
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konkurrieren müssen. Es stellt sich daher die Frage, unter welchen Umständen 
Hate Speech den Wert der Freiheit der degradierten Gruppe so weit unter- 
miniert, dass diese Rede reguliert werden sollte. Im Extremfall ist die Antwort 
einfach: Falls Individuen aufgrund von Hate Speech ihre Freiheiten gar nicht 
mehr effektiv ausüben können, ist dies ein Grund für die Beschränkung von 
Hate Speech, denn in diesem Fall wäre die Einschränkung einer Freiheit auf der 
Grundlage gerechtfertigt, dass andere Gesellschaftsmitglieder ihre Freiheiten gar 
nicht mehr ausüben können (Rawls, 1999, S. 476). In den allermeisten Fällen 
wird es sich aber nicht um solche Extremfälle handeln. Was ist also mit Fällen, in 
denen sich Angehörige von degradierten Gruppen wegen der Anfeindungen aus 
der Öffentlichkeit zurückziehen und viele Chancen der Teilhabe an der Gesell- 
schaft nicht in Anspruch nehmen? Was ist mit Fällen, in denen Angehörige dieser 
Gruppen unter dem Entzug der sozialen Grundlage des Selbstrespekts leiden, 
weil andere Gesellschaftsmitglieder ihnen die gleichwertige Mitgliedschaft in der 
Gesellschaft absprechen? 

Hier wird die Antwort notwendigerweise kontextabhängig sein. Die wichtigste 
Differenzierung bzgl. Hate Speech und der Regulierung der Meinungsfrei- 
heit ist die zwischen verschiedenen Bereichen, in denen Meinungen geäußert 
werden. Besonders der politische Bereich ist im Zusammenhang mit Hate Speech 
relevant und hier ist sowohl die freie Meinungsäußerung als auch die faire 
politische Teilhabe zu bedenken: Vertreterinnen eines politischen Liberalis- 
mus betonen die besondere Bedeutung der freien Diskussion und damit auch 
der Meinungsfreiheit in politischen Fragen (Mill, 1977, S. 244 f.; Rawls, 2005, 
S. 347 f.). Schon John Stuart Mill hat in seinem 1859 erschienen Werk On Liberty 
auf die besondere Bedeutung der Meinungsfreiheit für die Demokratie ver- 
wiesen. Für unsere Diskussion von Hate Speech ist dabei besonders eines seiner 
instrumentellen Argumente relevant: Mill (1977, S. 250; Brink, 2001, S. 122) 
betont, dass sich die verschiedenen Meinungen und Positionen in der öffentlichen 
Diskussion bewähren müssen, weil es keine andere Instanz gibt, die unabhängig 
entscheiden könne, welche Meinungen oder Positionen „richtig“ bzw. „falsch“ 
seien. Meinungen können laut Mill verwerflich sein, aber dennoch einen wahren 
Teil enthalten. Herauszufinden, um was es sich im spezifischen Fall handelt, sei 
die Aufgabe der öffentlichen Diskussion. „[T]he peculiar evil of silencing the 
expression of an opinion is, that it is robbing the human race; posterity as well as 
the existing generation; those who dissent from the opinion, still more than those 
who hold it“ (Mill, 1977, S. 229). Wichtiger für die Diskussion um Hate Speech 
ist aber sein Argument der Funktion von Äußerungen falscher oder unmoralischer 
Meinungen: Mill betont, dass der Glaube an die Wertebasis einer Gesellschaft, 
wenn sie nicht von Zeit zu Zeit hinterfragt und öffentlich diskutiert wird, zu 
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einer Art Dogma erstarren kann, das dann keine besondere Bindungskraft mehr 
entfalten kann (Mill, 1977, S. 244 f.). Daraus folgert er, dass liberal-demo- 
kratische Gesellschaften auch Diskussionen um ihre Grundwerte zulassen sollten, 
damit sich die Menschen der Gründe, die für eine solche Ordnung sprechen, 
bewusst bleiben und die Wertebasis der Gesellschaft dauerhaft verinnerlichen. 
Es sollte daher auch Rede zugelassen werden, die die Wertebasis kritisiert oder 
schlichtweg negiert (Mill, 1977, S. 228). 

Das Argument von Mill ist eine starke Begründung für die besondere 
Bedeutung der freien Meinungsäußerung in politischen Fragen. Allerdings 
impliziert dieses Argument nicht notwendigerweise, dass die Meinungsfreiheit in 
diesem Bereich unantastbar ist, denn es müssen mindestens drei Punkte beachtet 
werden: 

Erstens kann man argumentieren, dass es sich bei Hate Speech überhaupt 
nicht um eine politische Meinungsäußerung handelt oder gar überhaupt nicht um 
eine Meinungsäußerung, sondern schlicht um eine Beschimpfung. Aber selbst, 
wenn man degradierende Rede nicht als Meinungsäußerungen einstuft, ent- 
halten solche Aussagen häufig durchaus politische Inhalte oder sind mit ihnen 
vermischt (Sumner, 2000, S. 134). Selbst in diesen Fällen ist aber ihr Wert für 
den öffentlichen Diskurs beschränkt, denn es ist auch möglich diese Inhalte ohne 
degradierende Äußerungen zu formulieren. Die Meinungen müssen also bei 
einem Verbot von Hate Speech nicht generell dem öffentlichen Diskurs verloren- 
gehen, solange sie in anderer Form und ohne Vermischung mit Hate Speech noch 
in den politischen Diskurs eingehen. 

Zweitens beruht das Argument von Mill darauf, dass es tatsächlich zu einer 
gesellschaftlichen Diskussion von politischen Positionen und Meinungen kommt. 
Damit dies gelingen kann, müssen eine ganze Reihe von Voraussetzungen erfüllt 
sein. Die wichtigste ist dabei mit Sicherheit die, dass Angriffe auf liberale 
Grundwerte, etwa durch Hate Speech, auch tatsächlich effektiv durch Gegen- 
rede beantwortet werden müssen. Falls diese Gegenrede ausbleibt oder nur in 
geringem Maße auftritt, kann der Mechanismus nicht funktionieren, den Mill 
zur Aufrechterhaltung liberal-demokratischer Werte vorsieht.? Ein Ausbleiben 
von Gegenrede ist beispielsweise das Problem in sogenannten ,,Filterblasen“, die 
den Effekt haben können, dass Individuen sich bei ständiger Wiederholung der 


3Zur Relevanz von Gegenrede und die mögliche Rolle des Staates als Gegenredner siehe 
Brettschneider (2012). 
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gleichen Positionen und Meinung, ohne Auseinandersetzung mit abweichenden 
Meinungen, immer weiter radikalisieren.* 

Drittens gibt es noch ein weiteres Problem mit dem freien politischen Dis- 
kurs: Gerade Angehörige von Gruppen, die durch ein Klima von Hate Speech 
ausgegrenzt werden, ziehen sich in der Regel aus der Öffentlichkeit zurück und 
nehmen folglich auch in geringerem Maße an der politischen Diskussion teil. 
Dies ist nicht nur ein Problem wegen der wahrscheinlich geringeren Menge an 
Gegenrede, die dies verursacht, sondern auch, weil die betroffenen Individuen 
wegen der effektiven Ausgrenzung keinen fairen Zugang zum politischen Dis- 
kurs haben. Wie oben betont, sollte nach Rawls in einer gerechten Gesellschaft 
der faire Wert der Freiheit garantiert werden. Das gilt aber in besonderer Weise 
für den fairen Wert der politischen Freiheiten: „The fair values of the political 
liberties ensures that citizens similarly gifted and motivated have roughly an 
equal chance of influencing the government’s policy and of attaining positions of 
authority“ (Rawls, 2001, S. 46). Die Sicherung des fairen Werts der politischen 
Freiheit impliziert erstens, dass Beschränkungen der Meinungsfreiheit nicht 
bestimmte Gruppen in ihren Möglichkeiten zur Teilnahme am politischen Dis- 
kurs benachteiligen sollten. Zweitens muss jedoch auch sichergestellt sein, dass 
Individuen, die degradierten Gruppen angehören oder ihnen zugerechnet werden, 
nicht durch die Verbreitung von Hassrede aus dem öffentlichen Raum gedrängt 
werden dürfen. 

Zusammengefasst bedeutet dies also, dass die Meinungsfreiheit besonders 
in politischen Fragen geschützt werden sollte, aber ebenso gerade in politischen 
Diskussionen darauf geachtet werden sollte, dass Personen einen fairen Zugang 
zur öffentlichen Diskussion haben. Außerdem ist dies nur so lange relevant, 
wie die öffentliche Diskussion in einer Gesellschaft hinreichend funktioniert, 
Positionen ausgetauscht werden und im Wettbewerb gegeneinander antreten. 


“Als „Filterblase“ wird das „unique universe of information“ bezeichnet, das entsteht, 
wenn wir uns im Internet bewegen und die uns (prioritär) angebotenen Informationen 
durch Algorithmen auf der Grundlage unserer Identität und unserer vorherigen Handlungen 
immer weiter personalisiert werden (Pariser 2011, S. 9). 


>Diese und andere negative Effekte sind in der Forschung zu Hate Speech sehr gut belegt, 
siehe etwa Delgado und Stefancic (2004). 
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5 Implikationen für die Regulierung von Hate 
Speech 


Nun kommen wir zu der Frage, was das bisher Gesagte für eine angemessene 
Regulierung von Hate Speech bedeutet. Eine Regulierung von Hassrede sollte 
folgende Ziele verfolgen: Zunächst einmal sollte eine Regulierung einen frei 
zugänglichen demokratischen Diskurs erhalten. Es sollte sichergestellt sein, dass 
erstens ein möglichst großes Spektrum an inhaltlichen Positionen thematisiert 
werden kann; und dass zweitens ein adäquater Zugang zum demokratischen Dis- 
kurs für alle Individuen erhalten bleibt. 

Das zweite Ziel ist der Schutz des liberal-demokratischen Grundkonsenses. 
Das bedeutet, dass möglichst viele Individuen positive Einstellungen gegen- 
über der Demokratie und keine menschenfeindlichen Einstellungen haben 
sollten. Ohne diesen Grundkonsens ist ein demokratisches Zusammenleben 
prekär: Eine Gesellschaft, in der viele Menschen etwa menschenfeindliche Vor- 
stellungen haben, ist anfälliger für den Aufstieg demokratiefeindlicher politischer 
Bewegungen und anfälliger für rassistische Gewalt bis hin zum Völkermord 
(Tsesis, 2002). Die Aufrechterhaltung der liberal-demokratischen Ordnung kann 
durchaus als Grund für die Beschränkung bestimmter Grundfreiheiten — wie 
etwa der politischen Redefreiheit — herangezogen werden, sofern ein solcher 
Zusammenhang empirisch begründet werden kann. Dies soll etwa verhindern, 
dass Demokratie mit demokratischen Mitteln, wie etwa politischer Rede in 
Form von Hasspropaganda, unterminiert wird (Loewenstein, 1937; Rawls, 2005, 
S. 35 f.; Sirsch, 2013, S. 189-191). 

Drittens sollte eine Regulierung das Gut der gegenseitigen Zusicherung 
gleicher Würde schützen (Waldron, 2012). Wie wir gesehen haben, ist es nicht 
nur relevant, ob Individuen sich tatsächlich gegenseitig respektieren. Es ist auch 
relevant, ob eine Gesellschaft für alle Individuen den Anschein gegenseitigen 
Respekts vermittelt und damit soziale Grundlagen des Selbstrespekts sichert. Ob 
nun ein staatliches Eingreifen gerechtfertigt ist, hängt unter anderem von dem 
Grad der Feindlichkeit des sozialen Umfelds und der Effektivität der Maßnahmen 
bezüglich des Schutzes des öffentlichen Gutes der Zusicherung gleicher Würde 
ab.® 


6Schulzke (2016) argumentiert diesbezüglich, dass, wenn gruppen- und menschenfeind- 
liche Einstellungen aufgrund von staatlichen Beschränkungen von Hate Speech unaus- 
gesprochen bleiben, es aber allgemein vermutet wird, dass diese Einstellungen vorliegen, 
nicht unbedingt davon ausgegangen werden kann, dass das Fehlen von Hate Speech in der 
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Hieraus können einige generelle Richtlinien für eine Regulierung von Hass- 
rede abgeleitet werden. Regulierungen des Inhalts von Rede sind stärker 
begründungsbedürftig als die Regulierung bestimmter Arten der Äußerung. Eine 
Regulierung des Inhalts schließt bestimmte Positionen aus dem politischen Dis- 
kurs aus, während eine Regulierung der Form lediglich bestimmte Arten der 
Äußerung beschränkt. Zu letzteren, eher unproblematischen Kategorie von 
Regulierung zählt auch eine Beschränkung des Zeitpunkts oder des Orts einer 
Äußerung. Wichtig ist, dass diese Regulierungen der Form möglichst inhaltlich 
neutral sein sollten. Das bedeutet, dass sie keine einseitigen Nachteile für spezi- 
fische politische Doktrinen oder Inhalte verursachen sollten, so dass der faire 
Wert der politischen Freiheit gewahrt wird und der freie öffentliche Diskurs von 
Ideen erhalten bleibt (Rawls, 2005, S. 357; Scanlon, 1972, S. 209). 

Hieraus folgt beispielsweise, dass es eher rechtfertigbar ist, Demonstrationen 
an bestimmten sensiblen Orten zu untersagen, als sie generell zu verbieten. Es 
ist vor diesem Hintergrund deutlich leichter zu rechtfertigen einer Demonstration, 
auf der mit großer Wahrscheinlichkeit Hassrede gegenüber Gruppe X geäußert 
wird, eine Route zu verbieten, die durch Wohnviertel führt, in denen viele 
Angehörige von Gruppe X leben, anstatt sie ganz zu verbieten.’ 

Genauso stellt eine Regulierung von Hassrede in bestimmten sozialen 
Kontexten einen weniger drastischen Eingriff in die Redefreiheit dar. Beispiels- 
weise könnten Arbeitsplätze zu Hate-Speech-freien Zonen erklärt werden: 
Arbeitsplätze sind besonders wichtig für gesellschaftliche Teilhabe, aber gleich- 
zeitig nicht so relevant für den demokratischen Diskurs (Delgado & Stefancic, 
2004; Sirsch, 2013, S. 187-189). 

Allerdings sollte man nicht nur nach Regulierungen suchen, die möglichst 
kompatibel mit dem ersten Ziel sind. Es kann Kontexte geben, etwa, wenn 
Hassrede stark verbreitet ist und auch Hassverbrechen zunehmen, in denen das 


Öffentlichkeit soziales Vertrauen erhöht. Im Gegenteil könne es dazu kommen, dass hier- 
durch Misstrauen entsteht, da nicht klar zugeordnet werden kann, wer menschenfeindliche 
Einstellungen hat und wer nicht. Dieses Argument lässt jedoch die symbolische Stützung 
des öffentlichen Gutes der gegenseitigen Anerkennung durch rechtliche Beschränkungen 
von Hate Speech außer Acht, insbesondere, wenn diese Beschränkungen durch einen 
breiten Konsens in der Gesellschaft gestützt sind (Waldron, 2012, S. 79-81, 95). 


7Fiir das berühmte Fallbeispiel der Stadt Skokie und dem Nazi-Aufmarsch durch ein 
jüdisches Wohnviertel, das zudem von vielen Holocaust-Überlebenden bewohnt wurde, 
siehe z. B. Downs (1985). 
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zweite und dritte Ziel zunehmend gefährdet werden. In solchen Kontexten muss 
eine „wehrhafte Demokratie“ (Loewenstein, 1937) in der Lage sein, Hassrede 
zu unterdrücken und die Verbreitung von menschen- und demokratiefeindlichen 
Einstellungen zu verhindern — wozu auch inhaltliche Beschränkungen von demo- 
kratiefeindlicher, intoleranter und menschenfeindlicher Rede gehören (Rawls, 
1999, S. 192 f.; Sirsch, 2013, S. 190). 

Die hier vorgestellte Argumentation liefert also kein kategoriales Urteil 
darüber, ob Hassrede verboten oder geduldet werden sollte. Das liegt zum einen 
daran, dass keines der Ziele die anderen Ziele unter allen Umständen über- 
trumpft. So kann es durchaus Kontexte geben, in denen eine stärkere Regulierung 
von Hassrede wichtiger ist als die damit einhergehende Beschränkung des demo- 
kratischen Diskurses. Das wäre dann der Fall, wenn das gesellschaftliche Klima 
durch Hassrede so vergiftet ist, dass bestimmte Gruppen kaum am gesellschaft- 
lichen Leben teilnehmen und auch am demokratischen Diskurs kaum beteiligt 
sind. In einem anderen Kontext könnte es jedoch sein, dass Hassrede zwar vor- 
handen ist, aber dass der dominante Ton des öffentlichen Diskurses eine positive 
Haltung gegenüber diskriminierten Gruppen vermittelt. In solchen Fällen würde 
eine umfassende Beschränkung von Hassrede kontraproduktiv wirken, da in 
diesem Fall der freie Diskurs zu einer Stärkung von demokratischen Werten wie 
Toleranz und gegenseitiger Anerkennung als Gleiche beiträgt. 

Vor dem Hintergrund der Diskussion in diesem Beitrag lassen sich somit 
keine generellen und endgültigen Aussagen bezüglich der Rechtfertigbarkeit der 
Regulierung von Hassrede ableiten. Denn wie die oben genannten Ziele gegen- 
einander abgewogen werden sollten und welche Art der Regulierung im Einzelfall 
gerechtfertigt ist, hängt stark von verschiedenen Kontextfaktoren ab, die sowohl 
die Effektivität als auch die Dringlichkeit von Maßnahmen beeinflussen. Dies 
liegt zum einen daran, dass die Frage der Auswirkungen von Maßnahmen auf 
die Ziele empirischer Natur sind und somit für jeden Kontext neu gestellt werden 
müssen. Zusätzlich fehlt es an empirisch belastbaren generalisierbaren Erkennt- 
nissen bezüglich der Auswirkungen unterschiedlicher Regulierungen von Hass- 
rede auf die drei genannten Ziele. Auch ein vollständigeres empirisches Bild wäre 
jedoch nicht hinreichend, um eine abschließende Bewertung der Maßnahmen vor- 
zunehmen. Hierfür würde man eine deutlich umfassendere Gerechtigkeitstheorie 
benötigen, die Abwägungen zwischen den verschiedenen Zielen erlaubt (Sirsch 
& Unger, 2021). Hierfür könnte beispielsweise Rawls’ Theorie der Gerechtigkeit 
oder eine neorepublikanische Theorie herangezogen werden.® 


®Für einen Versuch, die Grundzüge einer solchen Theorie für die Regulierung von Hate 
Speech auf der Grundlage von Rawls zu erarbeiten, siehe Sirsch (2013). 
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Wir können an dieser Stelle dennoch versuchen, einige generelle Aus- 
sagen zum Zusammenhang zwischen Kontextfaktoren und der Rechtfertigbar- 
keit bestimmter Formen der Regulierung von Hassrede, besonders im Internet, 
zu machen: Zunächst einmal ist es relevant zu schauen, wie stark Hassrede in 
einem bestimmten Kontext verbreitet ist. Je stärker Hassrede gegenüber einer 
bestimmten Gruppe verbreitet ist, desto feindlicher ist das soziale Umfeld für 
diese Gruppe. Je feindlicher das Umfeld, desto dringender sind Maßnahmen, die 
die Gruppe vor diesen Angriffen schützt. Allerdings muss in diese Beurteilung 
auch eingehen, wie stark Gegenrede vorhanden ist (Cohen, 1993, S. 211): Je 
mehr Solidarität die Betroffenen von Hate Speech durch Gegenrede erfahren, 
desto geringer ist die Notwendigkeit einer Regulierung. Eine Beschränkung von 
Hate Speech kann sogar kontraproduktiv sein, wenn dadurch gleichzeitig Anlässe 
für Gegenrede entfallen: Wenn Angehörige einer Minderheit etwa sowieso schon 
davon ausgehen, dass viele Menschen negative Einstellungen ihnen gegenüber 
haben, könnte viel Gegenrede trotz Hate Speech dazu führen, dass dieser Ein- 
druck korrigiert wird. 

Besonders im Internet sollte daher darauf geachtet werden, dass Gegenrede 
in hinreichendem Ausmaß stattfindet. Zum einen ist dies notwendig, um die 
Radikalisierung von Gruppen zu verhindern, die sich in digitalen Räumen mit 
Gleichgesinnten isolieren und so kaum noch Gegenrede erfahren. Zum anderen 
ist ein Ausbleiben von Gegenrede aber besonders da problematisch, wo Minder- 
heiten Hate Speech dauerhaft ausgesetzt sind. Hier könnte demnach das auto- 
matische Erkennen von Hate Speech beispielsweise Moderator*innen dabei 
helfen, gezielt Gegenrede zu platzieren. Darüber hinaus stellt sich die Frage, ob 
ein staatliches Verbot von Hassrede das Grundgut der gegenseitigen Zusicherung 
effektiv sichern kann. Im Internet könnte dies für Chatrooms, Diskussionsforen 
oder Social Media bedeuten, dass Beiträge, die Hate Speech enthalten, generell 
gelöscht werden oder (idealerweise) bereits ihr Posting durch Uploadfilter ver- 
hindert wird. Allerdings ist das Löschen von Beiträgen kein Allheilmittel. Ins- 
besondere wenn negative Einstellungen gegenüber bestimmten Gruppen in der 
Gesellschaft verbreitet sind, gibt es sicherlich alternative Möglichkeiten, diese 
Einstellungen bekannt zu machen. Auch durch das Wissen um latente negative 
Einstellungen kann das Grundgut der gegenseitigen Zusicherung unterminiert 
werden. Zusätzlich ist es relevant zu fragen, wie invasiv Maßnahmen in die 
Möglichkeit einer Teilnahme am demokratischen Diskurs (und ihren fairen Wert) 
eingreifen. So kann festgehalten werden, dass Maßnahmen, die hierauf geringere 
Auswirkungen haben, generell leichter zu rechtfertigen sind. Unter die Kategorie 
der verhältnismäßig leicht zu rechtfertigenden Maßnahmen fallen solche, die nur 
die Form von Äußerungen und nicht deren Inhalt betreffen, sowie Regulierungen, 
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die nur in bestimmten Kontexten, wie etwa am Arbeitsplatz oder auch in digitalen 
Räumen, die von Schüler*innen frequentiert werden, gelten, und somit den Raum 
für politischen Diskurs nicht zu stark begrenzen. 

Im folgenden Abschnitt gehen wir exemplarisch auf eine naheliegende 
Möglichkeit zum Verbot bestimmter Formen von Hate Speech ein — sogenannter 
Hassausdrücke. Diese Ausdrücke können besonders auf Social-Media-Platt- 
formen relativ einfach durch automatisierte Verfahren identifiziert werden. 
Außerdem hat eine Filterung solcher Beiträge den Vorteil, dass auf die Form einer 
Aussage abgezielt wird, anstatt bestimmte Positionen generell zu verbieten. 


6 Regulierung von Hassausdrücken 


Unter Hassausdrücken verstehen wir Schimpfwörter für eine Gruppe, die häufig 
in Hate Speech verwendet werden. Solche Ausdrücke sind kulturell spezifisch 
und schwierig in andere Sprachen zu übersetzen (König & Stathi, 2010, S. 53). 
Ein Beispiel für solche Hassausdrücke sind Ethnophaulismen, die eine bestimmte 
ethnische Gruppe mit einer herabwürdigenden Bezeichnung versehen (vgl. auch 
Jaki in diesem Band). Solche Bezeichnungen gibt es aber auch für alle möglichen 
Arten von kulturellen und religiösen Gruppen, aber auch für soziale Kategorien, 
wie Frauen oder Menschen mit Behinderung. 

Der Vorteil eines Verbots solcher Hassausdrücke ist naheliegend: Erstens ent- 
falten Hassausdrücke eine besonders starke degradierende Wirkung. Sie referieren 
in der Regel auf eine lange Geschichte der Unterdrückung und Herabwürdigung 
und spielen eine wichtige Rolle in Mechanismen der Dehumanisierung, die zum 
Beispiel Massengräueltaten vorweggehen (Tsesis, 2002). Zweitens können sie 
effektiv reguliert werden, weil sie einfach erkannt werden und es somit relativ 
problemlos möglich ist, Beiträge in sozialen Netzwerken anhand von Algorithmen 
nach ihnen zu filtern (siehe Mathew etal., 2019; Mondal et al., 2017 sowie die 
Beiträge in diesem Band). 

Zunächst erscheint die Regulierung von Hassausdrücken als unproblematisch: 
Indem Beiträge mit Hassausdrücken aus dem gesellschaftlichen Diskurs entfernt 
werden, wird direkt ein Beitrag zum Schutz eines gesellschaftlichen Klimas der 
gleichen Anerkennung geleistet. Das liegt daran, dass Redebeiträge, die diese Hass- 
ausdrücke verwenden, häufig besonders einschüchternd wirken. Angehörige von 
degradierten Gruppen werden so beispielsweise beim Diskutieren in Internetforen 
oder beim Lesen von Postings in Social Media nicht mit diesen degradierenden 
Bezeichnungen konfrontiert und es bleiben die negativen Wirkungen aus. Zweitens 
erscheint eine solche Regulierung auf den ersten Blick auch als unproblematisch 
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für die Erhaltung des demokratischen Diskurses: Das liegt daran, dass es sich nur 
um eine Regulierung der Form, aber nicht des Inhalts handelt: Relevante politische 
Inhalte lassen sich nämlich auch ohne die Verwendung von Hassausdrücken 
kommunizieren, indem diese Ausdrücke durch andere Worte ersetzt werden: ,,[F] 
or each such word, there is, or at least perfectly well could be, another that applies 
to the same people but whose use does not convey these things — there is, that is, 
a neutral counterpart“ (Hornsby, 2001, S. 129 f.). Selbst wenn es sich also bei 
der betreffenden Aussage um eine politische Aussage handelt, dann wird nicht 
der politische Inhalt an sich aus dem öffentlichen Diskurs entfernt, sondern nur 
die Formulierung dieser Inhalte mit Bezug zu degradierenden Hassausdrücken. 
Drittens dürfte auch der Schutz des liberal-demokratischen Grundkonsenses durch 
eine gemäßigtere politische Diskussion gestärkt werden, da so besonders herab- 
würdigende Aussagen aus dem öffentlichen Diskurs ausgeschlossen werden und 
so eine weitere Radikalisierung und Abstumpfung vermieden wird (Bilewicz & 
Soral, 2020). Es sprechen also sehr gute Gründe dafür, solche Hassausdrücke in 
Internetforen oder Postings in Social Media zu löschen oder, besser noch, beispiels- 
weise durch Uploadfilter dafür zu sorgen, dass solche Äußerungen gar nicht erst 
erscheinen und so zu einem hasserfüllten sozialen Klima beitragen können.’ 
Allerdings stellen sich selbst bei diesem Beispiel eine Reihe von Problemen, 
die bei einer Regulierung bedacht werden sollten. Die Regulierung von Hass- 
ausdrücken zielt auf bestimmte Worte oder Zeichen ab, jedoch nicht auf die mit 
diesen Zeichen verbundenen Bedeutungen: Selbst die Bedeutung von sozial 
hochsalienten Hassausdrücken ist aber in der Regel stark kontextabhängig. Es 
stellt sich beispielsweise das Problem, zwischen Hate Speech, die reguliert 
werden sollte, und umgedeuteten Hassausdrücke, die nicht reguliert werden 
sollten, zu unterscheiden (Altman, 1993, S. 314; Strossen, 1990, S. 538 f.; 
Unger, 2013, S. 280-282). Die Umdeutung von Hassausdrücken durch betroffene 
Gruppen stellt eine Form des Empowerments dar, bei dem diese Gruppen 
Kontrolle über das gesellschaftliche Narrativ erlangen und Selbstbewusstsein 
gewinnen können. Eine Regulierung, die diese Unterschiede nicht beachtet, 
könnte gerade solche Beiträge beschränken, die der einschüchternden Wirkung 
einer feindlichen Umgebung entgegenwirken. Selbst solche Hassausdrücke 


° Zusätzlich stellen sich an dieser Stelle grundlegende Fragen bezüglich des Einsatzes auto- 
matisierter algorithmischer Entscheidungssysteme, etwa inwiefern es ein Recht auf Über- 
prüfung durch menschliche Entscheider*innen seitens der betroffenen Individuen gibt oder 
wie hoch die an solche Systeme angelegten Transparenzstandards sein sollten. Vgl. hierzu 
etwa Binns (2018) oder Zerilli et al. (2019). 
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sollten daher nicht generell verboten und aus dem digitalen Diskurs vollständig 
entfernt werden. Stattdessen müssten Filter auch solche Kontextfaktoren beachten 
oder die einzelnen fragwürdigen Postings wiederum durch Moderator*innen 
nachträglich beurteilt werden. In einigen Fällen mag es wiederum sinnvoll sein, 
Äußerungen zuzulassen, aber ihre problematische Form und ihren Inhalt zu 
kommentieren und dadurch Gegenrede zu produzieren. 

So zeigt selbst das Beispiel der Hassausdrücke, dass eine Regulierung von 
Hate Speech notwendigerweise hochgradig den Kontext von Äußerungen 
beachten muss und im Einzelfall entschieden werden sollte, ob durch eine 
Regulierung mehr oder weniger Schaden für die Gesellschaft entsteht. 


7 Fazit 


Wir haben argumentiert, dass Hate Speech ein Dilemma für liberale Demokratien 
darstellt: Der zentrale Wert der Meinungsfreiheit steht in einem Spannungsver- 
hältnis zu anderen relevanten Werten, etwa zum Wert anderer Grundfreiheiten. 
Auf dieser Grundlage haben wir zentrale Ziele für eine Regulierung von Hate 
Speech herausgearbeitet. Inwiefern diese Ziele durch eine Regulierung von Hate 
Speech erreicht werden können, hängt jedoch stark vom jeweiligen gesellschaft- 
lichen Kontext sowie empirischen Fragen ab: Eine staatliche Beschränkung 
von Hate Speech ist besonders geboten, wenn Hate Speech weit verbreitet ist 
und wenig Gegenrede erfolgt. Besonders problematisch ist Hate Speech gegen- 
über strukturell benachteiligten Minderheiten, die gefährdet sind noch weiter 
vom gesellschaftlichen Leben ausgeschlossen zu werden. Deshalb sollte man bei 
einer Regulierung darauf achten, dass besonders zentrale soziale Räume (online 
wie auch offline), etwa im ökonomischen, politischen oder kulturellen Bereich, 
weitestgehend frei von Hate Speech bleiben. So liegt etwa die Etablierung von 
Speech Codes am Arbeitsplatz nahe: Hierbei handelt es sich um einen Bereich, 
der zentral für die Verfolgung individueller Lebenspläne ist, aber gleichzeitig 
eine nachgeordnete politische Relevanz besitzt. Gerade auch im digitalen Raum 
würden solche zentralen Orte von einer starken Moderation profitieren. Ist dieser 
Raum durch Hate Speech gegenüber einer bestimmten Gruppe allerdings stark 
belastet, dann ist es durchaus gerechtfertigt Hate-Speech-Äußerungen herauszu- 
filtern. Dies sollte im besten Fall bereits vor der Veröffentlichung passieren. Auto- 
matisierte Verfahren können hier äußerst hilfreich sein, sollten allerdings nicht so 
stark in den Diskurs eingreifen, dass eine offene Diskussion unmöglich wird. Dafür 
sollte stark zwischen verschiedenen (digitalen) Räumen unterschieden werden 
und gegeneinander abgewogen werden, welche Rolle dem spezifischen Raum für 
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den öffentlichen Diskurs auf der einen und für die Teilhabe von Minderheiten am 
öffentlichen Leben auf der anderen Seite zukommt. Außerdem sollten wichtige 
Kontextfaktoren bei der Beurteilung von Äußerungen beachtet werden. 

Die einer Regulierung von Hassrede zugrundeliegenden Abwägungen sind 
nicht einfach. Es ist wichtig, hierbei auch auf die Auswirkungen von Hate Speech 
auf das soziale Klima in einer Gesellschaft zu achten — insbesondere aus der 
Perspektive derjenigen, die bereits strukturellen Nachteilen ausgesetzt sind. Unser 
Beitrag soll daher auch als Plädoyer verstanden werden, dass die Lebensum- 
stände und Teilhabechancen von Personen, die unter Hate Speech aus der Gesell- 
schaft zu leiden haben, hierbei in besonderem Maße Beachtung finden sollten. 
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1 Einführung und Problemstellung 


Spätestens mit dem aufsehenerregenden Obama-Deepfake aus dem Jahr 2018 
wurden die technologischen Möglichkeiten von Deepfakes einem größeren 
Zuschauer:innenkreis bekannt (BuzzFeed, 2018). Seither sind zwar glücklicher- 
weise größere Deepfake-induzierte Skandale ausgeblieben.! Politiker:innen und 
Forschende weltweit arbeiten jedoch trotzdem mit Hochdruck an Regulierungs- 
vorschlägen zur Einhegung von Deepfakes, um die befürchteten Effekte von mit 
Schädigungsabsicht erstellten und verbreiteten Deepfakes zu vermeiden. 

Dabei sind Manipulationen von Bild- und Tonmaterial freilich nichts Neues. 
Seit es menschengemachte Aufzeichnungen gibt, existieren auch Fälschungen 
(Steinebach etal., 2020, S.21). Frühere Manipulationsmethoden stützten 
sich allerdings vor allem auf Erzählungen und Geschriebenes und derartige 
Fälschungen von Bild- und Tonmaterial konnten auf relativ einfache Weise 


lAn dieser Stelle soll nicht unerwähnt bleiben, dass Deepfakes und insb. Deepfake- 
Pornographie dennoch bereits sehr reale Konsequenzen für die Opfer haben, wie z. B. der 
Fall Ayyub aus dem Jahr 2018 demonstriert (Ayyub, 2018). 
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wirksam erkannt werden. Erstmals ist es mittels KI-Einsatz inzwischen auch 
möglich, qualitativ hochwertige synthetische Medieninhalte zu erstellen oder 
bestehende Inhalte so zu manipulieren, dass sie sich zunehmend schwieriger von 
realen Inhalten unterscheiden lassen. Weil die menschliche Psyche dem, was die 
eigenen Augen sehen, stärkeren Glauben zu schenken scheint, wird Deepfakes 
ein besonders großes Manipulationspotential beigemessen (Minsky, 2021). Diese 
Herausforderung wird dadurch verstärkt, dass technologische Fortschritte zum 
einen die Qualität von Deepfake-Inhalten in absehbarer Zeit dahingehend steigern 
könnten, dass selbst Expert:innen nicht mehr in der Lage wären, eine Unter- 
scheidung von realen Inhalten vorzunehmen (Jiang et al., 2021). Zum anderen 
führen ebenjene Fortschritte dazu, dass die Herstellung von täuschend echten 
Deepfakes immer einfacher wird. Deshalb wird davon ausgegangen, dass künftig 
auch technisch nicht- oder nur wenig versierte Menschen entsprechende Inhalte 
erstellen können werden (van Huijstee et al., 2021, S. 7 ff.). 

Den mit Deepfakes assoziierten Risiken wird auch deshalb größere Auf- 
merksamkeit beigemessen, da das Deepfakes-Phänomen in eine gefährliche 
Zeit fällt, die dadurch charakterisiert ist, dass die Verbreitung medialer Inhalte 
und insbesondere von Nachrichteninhalten nicht mehr allein in der Hand von 
Akteuren liegt, die vertrauenswürdig sind bzw. deren Handlungen quantitativ 
überschaubar sind (Chesney & Citron, 2019, S.9f.). Durch den sogenannten 
digitalen Strukturwandel sind neben Massenmedien mit Onlineplattformen 
neue Vermittler öffentlicher Kommunikation getreten (Eisenegger, 2021). Platt- 
formen wie soziale Netzwerke, Suchmaschinen, Video-Sharing-Dienste oder 
Nachrichtenaggregatoren spielen auch für die Nutzung herkömmlicher Medien 
eine zentrale Rolle. Von klassischen Blogs, über soziale Online Netzwerk-Platt- 
formen bis hin zu Instant Messaging Apps bietet sich für all jene, die an der 
Verbreitung synthetischer oder manipulierter Inhalte interessiert sind, eine nie 
da gewesene Vielzahl an Verbreitungsmöglichkeiten. Wie schon aus der Dis- 
kussion rund um Desinformation und Social Media bekannt, treibt diese Ent- 
wicklung nicht nur die Quantität der Verbreitung entsprechender Inhalte voran. 
Im Umkehrschluss bedeutet die zunehmende Nachrichtennutzung auf sozialen 
Netzwerken, insbesondere bei jüngeren Altersgruppen, dass sowohl korrekte 
Informationen als auch Richtigstellungen über Desinformation ihre Adressaten 
häufig nicht erreichen. Hinzu kommt, dass psychologische Faktoren dazu 
führen, dass manipulierte Inhalte, gerade dann, wenn sie besonders sensationelle 
Informationen zu liefern vorgeben und/oder bestehende Einstellungen affirmieren 
(der sog. Confirmation Bias), viel stärker wirken, als Klarstellungen es vermögen. 
Dadurch hinterlassen entsprechende Inhalte selbst dann noch einen signifikanten 
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Effekt bei den Betroffenen, wenn die konsumierten Inhalte später richtiggestellt 
werden (der sog. Falschinformationseffekt) (Högden et al., 2020). 

Angesichts dieser Problemlage werden weltweit Wege diskutiert, wie den 
möglichen Risiken von Deepfakes begegnet werden sollte. Unter den Vor- 
schlägen finden sich solche zur Technologiegestaltung, zur Entwicklung von 
Detektionsmethoden, zum Ausbau der gesellschaftlichen Resilienz bis hin zu 
verschiedenen Möglichkeiten des Verbots oder der anderweitigen Begrenzung 
der Verbreitung manipulierter oder synthetischer Inhalte (Trend Micro Research, 
UNICRI und EC3, 2020, S. 61 ff.). Mit den gegenwärtig auf EU-Ebene ver- 
handelten Vorschlägen zu neuen Regelungen für Online-Plattformen (DSA) und 
KI-Regulierung (AI Act) existieren zwei Vorhaben, die Deepfakes unmittelbar 
betreffen. 

Der vorliegende Beitrag gibt einen Überblick über die Regulierung von 
Deepfakes auf EU-Ebene und diskutiert, inwiefern die Kommissionsentwürfe 
zum DSA und KI-Verordnungsvorschlag (Al Act) die mit Deepfakes assoziierten 
Herausforderungen adressieren. Der Aufsatz beginnt mit einem Kapitel zur 
begrifflichen Einordnung des Phänomens Deepfakes innerhalb des Diskurses 
rund um Desinformation, Fehlinformation, schädigende Informationen und Hate 
Speech. Das daran anschließende Kapitel gibt einen Überblick über die mit 
Deepfakes assoziierten Chancen und Risiken. 

Daran schließt sich die Diskussion der Regulierungsbemühungen zu 
Deepfakes an. Nachdem ein Überblick über Regulierungsbestrebungen in den 
Vereinigten Staaten und der Volksrepublik China gegeben wurde, werden die ein- 
schlägigen Vorgaben und Regulierungsbestrebungen auf EU-Ebene vorgestellt. 
Der Fokus hierbei liegt auf den EU-Vorhaben zum Digital Services Act und der 
KI-Regulierung, die sowohl im Hinblick auf Berührungspunkte mit Deepfakes als 
auch im Hinblick auf mögliche Probleme diskutiert werden, sodass Handlungs- 
potentiale deutlich werden. 


2 Definitionen 


Im Folgenden werden zentrale Begrifflichkeiten des Deepfakes-Diskurses 
definiert und zu einander in Beziehung gesetzt. 


Deepfakes: Bei der Definition des Begriffs Deepfakes folgt der Beitrag dem 
Vorschlag einer im Auftrag des Europäischen Parlaments erarbeiteten Studie. 
Deepfakes werden darin als ,,manipulierte oder synthetische Audio- oder Video- 
Inhalte verstanden, die authentisch erscheinen und in denen (eine) Person(en) 


200 M. Karaboga 


etwas zu sagen oder zu tun scheint (scheinen), was sie nie gesagt oder getan 
hat (haben), und die mithilfe von KI-Techniken, einschließlich maschinellem 
Lernen und Deep Learning, hergestellt wurden“ (van Huijstee et al., 2021, S. 2 
— eigene Übersetzung). 

Obwohl Videomanipulationen schon viel länger existieren als das Phänomen 
Deepfakes, rückt mit dem Begriff die neuartige technische Produktions- 
dimension in den Vordergrund, die es erstmals möglich macht, Videos von der- 
art hoher und zunehmender Qualität — immer einfacher auch seitens Laien — zu 
produzieren, dass sie von echten Inhalten kaum mehr unterscheidbar sind. Die 
Definition lässt zudem offen, ob Deepfakes auch für nicht-schädliche (z.B. 
künstlerische) Zwecke verwendet werden können. Cheapfakes bezeichnen 
Deepfakes mit geringer Qualität, wie zum Beispiel das Nancy Pelosi-Video, 
das lediglich eine verlangsamte Version des Originalvideos darstellte, bei dem 
keine sonstigen, fortschrittlichen Manipulationstechniken Anwendung fanden 
(Paris & Donovan, 2019). Bislang knüpft die Definition von Deepfakes an die 
manipulierte Abbildung von Personen an. Es ist denkbar, dass künftige Deepfakes 
auch Objekte oder die Umwelt, beispielsweise fiktive Naturkatastrophen, 
abbilden, sodass eine Erweiterung der Definition auf den Einschluss nicht- 
personenbezogener Situationen geboten sein könnte (Centre for Data Ethics and 
Innovation, 2019). 

Deepfakes können für beliebige Zwecke verwendet werden und stellen somit 
ein Querschnittsphänomen dar. In der einschlägigen Literatur werden Deepfakes 
— vor allem aufgrund der politischen Bedeutungszuschreibung — primär im 
Bereich von Desinformation und Fehlinformation verortet. Allerdings können 
Deepfakes ebenso zu Zwecken der schädigenden Information und Hate Speech 
eingesetzt werden (vgl. Ajder etal., 2019; Bateman, 2020; Chesney & Citron, 
2019). Daher werden diese Begriffe im Folgenden definiert. 


Desinformation: Desinformation wird in Anlehnung an den Formulierungsvor- 
schlag der hochrangigen Expertengruppe für Fake News? und Desinformation 
der Europäischen Union (EU) definiert. Demnach beinhaltet Desinformation 
„nachweislich falsche oder irreführende Informationen, die mit dem Ziel des 
wirtschaftlichen Gewinns oder der vorsätzlichen Täuschung der Öffentlichkeit 
konzipiert, vorgelegt und verbreitet werden und öffentlichen Schaden anrichten 


?Der noch vor einigen Jahren äußerst populäre Begriff „Fake News“ wird in der wissen- 
schaftlichen und politischen Debatte inzwischen vermieden, da er inhaltlich unscharf und 
zugleich politisch aufgeladen ist (Wardle & Derakhshan, 2017, S. 5). 
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können. [...] Irrtümer bei der Berichterstattung, Satire und Parodien oder ein- 
deutig gekennzeichnete parteiliche Nachrichten oder Kommentare sind keine 
Desinformation.“ (Europäische Kommission, 2018, S. 4). 


Fehlinformation (Misinformation): Fehlinformationen werden verstanden als 
Informationen, „die faktisch nicht der Wahrheit entsprechen, jedoch vom Sender, 
der die Information verbreitet, für wahr gehalten werden“ (Johann & Wagner, 
2020, S. 102). 


Schädigende Information (Malinformation): Schädigende Informationen 
sind von Desinformation und Misinformation insofern zu unterscheiden, als sie 
der Wahrheit entsprechen, ihre Verbreitung allerdings der gezielten Schädigung 
bzw. Benachteiligung der Zielpersonen dient. Beispiele sind Leaks und Doxing 
(Wardle & Derakhshan, 2017, S. 5). 


Hate Speech: Unter Hate Speech werden im Folgenden Nachrichten ver- 
standen, die sich gegen ein Individuum oder eine Gruppe richten, indem Identi- 
tätsmerkmale (Geschlecht, Ethnie, Hautfarbe, philosophische Überzeugungen 
oder Religion, Nationalität) des Individuums bzw. der Gruppe als negativ und 
unerwünscht dargestellt und die Abwertung eines Individuums bzw. einer Gruppe 
beabsichtigt wird. Dadurch kann Hate Speech auch zu körperlicher Gewalt führen 
(Rudnicki & Steiger, 2020). 


3 Mit Deepfakes assoziierte Risiken und Chancen 


Deepfake-Technologien sind eine typische dual use-Technologie. Sie können 
sowohl für gesellschaftlich erwünschte als auch für gesellschaftlich unerwünschte 
Zwecke eingesetzt werden. Jegliche Regulierung ist daher gefordert, bei dem 
Versuch der Verhinderung von schädlichen Effekten erwünschte Potentiale von 
Deepfakes nicht zu ersticken. 


3.1 Chancen von Deepfakes 


Deepfake-Technologien ermöglichen eine Reihe von erwünschten Nutzungs- 
möglichkeiten. Zu den bekanntesten dieser Anwendungen zählen die Verwendung 
von Smartphone-Kamera-Apps und die Wiederbelebung verstorbener bzw. Ver- 
jüngung gealterter Schauspieler:innen. Das Austauschen von Gesichtern (sog. 
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Face-Swap-Videos) mittels Smartphone-Apps zu Unterhaltungszwecken ist in 
den vergangenen Jahren, insbesondere unter Jugendlichen, zu einer gängigen 
Kulturpraxis avanciert. Anwendungen wie Snapchat und Reface zählen zu den 
weltweit am häufigsten heruntergeladenen Apps (Curry, 2021). Entsprechend 
ist es möglich, dass Menschen sich selbst in kurze Schnipsel aus Hollywood- 
Filmen hineindeepfaken (Kietzmann et al., 2020). Disney verwendete Deepfake- 
Technologie zunächst zur Darstellung einer Rolle, deren Besetzung verstorben 
war, und später auch zur Inszenierung des jungen Luke Skywalkers auf der Kino- 
bzw. Streaming-Leinwand. 

Generell eröffnen Deepfake-Technologien zahlreiche Nutzungsmöglichkeiten 
für Audio-, Foto- und Videoproduzenten bzw. -bearbeiterinnen: die einfache und 
kostengünstige Korrektur falsch gesprochener Zeilen durch Deepfake-Audio; 
die vereinfachte Erstellung von 3D-Modellen in Computerspielen; der Einsatz 
im Kulturbereich, bspw. zur Nachstellung historischer Ereignisse inklusive der 
Darstellung verstorbener historischer Persönlichkeiten uvm. (van Huijstee et al., 
2021, S. 26-29). 

Chancen von Deepfakes werden auch zur Verbesserung der Mensch- 
Maschine-Interaktion, für Videokonferenzen, bei medizinischen Anwendungen 
sowie zu Satirezwecken gesehen. Insbesondere satirische Verwendungen sind im 
Internet vielfach anzutreffen und können zu generellen satirisch-humoristischen 
Zwecken eingesetzt werden. Ein Beispiel hierfür ist etwa die Parodie der Weih- 
nachtsansprache von Königin Elizabeth II. im Jahr 2020 (Channel 4, 2020). 


3.2 Risiken von Deepfakes 


Ein großer Teil der Publikationen zu Deepfakes verstehen diese als eine 
Risiko-Technologie, deren Wirkungen sich, sofern nicht rechtzeitig und mit 
angemessenen Mitteln gegengesteuert wird, erst in einigen Jahren entfalten 
werden (Bateman, 2020; Chesney & Citron, 2019; Collins, 2019; Dobber et al., 
2021; Trend Micro Research, UNICRI und EC3, 2020, S. 60 f.). Diskursiv ist 
das Thema Deepfakes an der Schnittstelle zwischen den Debatten rund um 
Desinformation einerseits und Hate Speech andererseits zu verorten. Mit der 
Dimension der Desinformation werden insbesondere gesellschaftliche Effekte 
assoziiert, die noch nicht eingetreten sind, aber als Zukunftsszenario befürchtet 
werden. Dazu zählen beispielsweise die Manipulation von Wahlen, die generelle 
Erosion gesellschaftlichen Vertrauens oder auch ein sinkendes Vertrauen in das 
Justizsystem. Gleichzeitig demonstriert der Status Quo der Deepfake-Nutzung, 
dass der (rache-)pornographische Einsatz von Deepfakes am häufigsten anzu- 
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treffen ist. So machten pornographische Inhalte (Deepfake-Pornographie oder 
Deepnudes), die fast ausschließlich Frauen abbildeten, im Jahr 2019 Schätzungen 
zufolge über 90 % aller schädigenden Deepfakes aus. Die Mehrzahl dieser Inhalte 
(über 90 %) bezieht sich zwar wiederum auf die Verbreitung pornographischer 
Inhalte auf spezifisch zur Verbreitung dieser Pornographie-Art ausgelegten Web- 
seiten, sodass meist ein Publikum mit einem spezifischen Interesse an dieser Art 
von Inhalten auf diese stößt (Ajder etal., 2019, S. 1). Allerdings zirkulieren 
sie in zunehmenden Maße auch über die Grenzen dieser Webseiten hinaus und 
werden zu Zwecken der Verleumdung, Bedrohung oder Erpressung von Frauen 
verwendet (Compton, 2021). Dies verdeutlicht, dass trotz des diskursiven Fokus’ 
auf die Dimension der Desinformation in der einschlägigen Literatur gegen- 
wärtig vor allem die Hate-Speech-Dimension von Deepfakes die größere Rolle zu 
spielen scheint. 

Ein beliebter Einsatz zur Typologisierung der Risiken von Deepfakes ist die 
Unterteilung in Schadensarten: Finanzieller Schaden, Reputationsschaden und 
Manipulation der Entscheidungsfindung (Collins, 2019). Risiken können aber 
auch nach den Betroffenen strukturiert werden. Bateman (2020) sowie Chesney 
und Citron (2019) schlagen eine Unterteilung in die Kategorien (a) Individuen, 
(b) Institutionen bzw. Organisationen und (c) gesellschaftliche Schäden vor. 
Die Schwierigkeit bei letzterem Ansatz ist, dass viele der möglichen Schäden 
kaskadierende Effekte entfalten können und über das Individuum hinaus auch 
zu organisationalen und gesellschaftlichen Problemen führen können. Beispiels- 
weise betrifft die Diskreditierung von Journalist:innen mittels Deepfakes in 
erster Linie die betroffene(n) Person(en), doch können die Reaktionen auf das 
Deepfake zusätzlich auf die Medienanstalt zurückfallen, bei der die Person(en) 
beschäftigt ist/sind. Je nach gesellschaftlicher Ausgangssituation und sonstigen 
Kontextfaktoren wie der Häufigkeit und des Schweregrads des Deepfakes (wird 
im Deepfake beispielsweise eine systematische Nachrichtenfälschung unterstellt?) 
können sich schließlich kaskadierende Effekte auf gesellschaftlicher Ebene 
zeigen, die beispielsweise zu einer Beschädigung des Vertrauens in das Medien- 
system führen. Dementsprechend folgt der Beitrag der Sortierung nach Schadens- 
arten. 

Psychologische Schäden können durch Deepfakes insbesondere bei den 
von einem Deepfake unmittelbar betroffenen Personen entstehen. Deepfakes 


3In sog. Deepfake-Pornos werden die Gesichter beliebiger Menschen in existierende 
pornographische Videos (teils auch Fotos) übertragen. Bei Deepnudes wird die auf einer 
Fotografie getragene Kleidung unter Software-Einsatz automatisch vollständig entfernt. 
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können etwa zum Zwecke des Mobbings, der Verleumdung und Einschüchterung 
eingesetzt werden. Wie erwähnt, haben Deepfakes eine starke sexuelle und 
sexistische Komponente, die neben den bereits genannten Zwecken auch zu Ruf- 
schädigung und zur Unterdrückung der Freiheit der Meinungsäußerung führen 
kann. Des Weiteren lassen sich Deepfakes zu Erpressungszwecken einsetzen. 
Wenn pornographische Deepfakes für Erpressungen genutzt werden, ist von 
Sextortion die Rede (van Huijstee et al., 2021, S. 30). 

Finanzielle Schäden können durch Deepfakes sowohl bei Individuen als 
auch bei Organisationen entstehen. So können Erpressungen neben dem oben 
erwähnten psychologischen Schaden auch finanziellen Schaden für Individuen 
und Organisationen bewirken. Darüber hinaus können Deepfakes zum Zwecke 
des Identitätsdiebstahls eingesetzt werden. Ziele dieser Art des Betrugs können 
insbesondere Organisationen bzw. Unternehmen sein (Bateman, 2020, S. 9-11), 
aber auch Einzelpersonen (etwa in einer neuen Form des Enkel-Tricks) (Sokolov 
etal., 2020, S.513-16). Zukünftig ist auch denkbar, dass Deepfakes zum 
Zwecke der Marken- oder Rufschädigung eingesetzt werden, indem beispiels- 
weise Geschäftsführende dabei abgebildet werden, wie sie falsche Aussagen über 
Geschäftszahlen und Konkurse treffen. Je nach Reaktionsgeschwindigkeit des 
Unternehmens und Tragweite des Deepfakes kann es auch zu Manipulationen des 
Aktienmarktes kommen (van Huijstee et al., 2021, S. 31). 

Gesellschaftliche Schäden durch Deepfakes stehen häufig im Mittelpunkt 
der Debatte und sind eher als mittel- bis kurzfristige Gefahren einzustufen, deren 
Folgen sich aller Voraussicht nach erst dann zeigen werden, wenn Deepfakes 
häufiger zum Einsatz kommen oder einzelne Deepfakes eine sehr große gesamt- 
gesellschaftliche Wirkung entfalten. Theoretisch können Deepfakes beliebige 
Gesellschaftsbereiche betreffen, doch in der Debatte werden insbesondere die 
möglichen Folgen für das Medien-, Justiz-, Wissenschafts- und Wirtschafts- 
system, die nationale Sicherheit, die internationalen Beziehungen und in letzter 
Konsequenz für das Vertrauen in die Demokratie diskutiert (Schick, 2020) 
(Tab. 1). 


4 Regulierung von Deepfakes 


Wie bei vielen neuen Technologien, ist auch die Nutzung und Verbreitung von 
Deepfakes einerseits in die bestehende Rechtslage eingebettet und bringt anderer- 
seits neue regulatorische Herausforderungen und damit Regulierungsbedarfe mit 
sich. Eine unmittelbare Regulierung von Deepfakes ist bislang weltweit nur in 
wenigen Staaten anzutreffen. Neben der Europäischen Union sind Regulierungs- 
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Tab.1 Überblick über unterschiedliche, mit Deepfakes assoziierte Risiken (van Huijstee 
et al., 2021, S. 29, eigene Übersetzung) 


Psychologischer Schaden |Finanzieller Schaden | Gesellschaftlicher Schaden 
e Erpressung e Erpressung e Manipulation der Bericht- 
e Verleumdung e Identitätsdiebstahl erstattung 
e Einschüchterung e Betrug (z. B. Versicherung/ | + Beeinträchtigung der 
e Mobbing Zahlung) wirtschaftlichen Stabilität 
e Rufschädigung e Manipulation von Aktien- |° Schaden für das Justiz- 
e Untergrabung des Ver- kursen system 

trauens e Markenschädigung e Schädigung des Wissen- 
e Unterdrückung der Freiheit | e Reputationsschaden | schaftssystems 

der Meinungsäußerung | « Erosion des Vertrauens 

e Schädigung der Demo- 
kratie 


Manipulation von Wahlen 
e Beeinträchtigung inter- 
nationaler Beziehungen 
| e Beeinträchtigung der 
nationalen Sicherheit 


bemühungen insbesondere in den Vereinigten Staaten und in China erkennbar. Im 
Folgenden werden zunächst die dortigen Entwicklungen skizziert. Daran schließt 
sich die Diskussion der einschlägigen Vorgaben auf EU-Ebene an. Schließlich 
werden der DSA- und KI-Regulierungsvorschlag der EU-Kommission vorgestellt 
und diskutiert. 


4.1 Regulierungsbemühungen in den Vereinigten 
Staaten und in China 


Die US-Reaktionen bestehen hauptsächlich aus Maßnahmen auf Bundesstaats- 
ebene, die seit kurzem auch durch solche auf Bundesebene ergänzt wurden. 
Kalifornien und Texas verabschiedeten bereits 2019 Gesetze, die innerhalb 
eines Zeitraums im Vorfeld von Wahlen die Verbreitung manipulierter Inhalte 
über politische Kandidaten verbieten. Virginia verabschiedete 2019 ein Gesetz, 
das die Verbreitung manipulierter Inhalte unter Strafe stellt, sofern diese auf die 
Verleumdung, Einschüchterung oder Erpressung einer Person abzielen. Hier- 
durch soll vor allem die Verbreitung von nicht-einvernehmlicher Deepfake- 
Pornographie unterbunden werden (Feeney, 2021). Kalifornien und New York 
führten ein privates Klagerecht für Opfer von Deepfake-Pornographie ein, um 
individuelle Klagen zu vereinfachen (Ferraro & Tompros, 2020). 
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Auf US-Bundesebene beschränken sich die erlassenen Maßnahmen bislang 
auf die Systematisierung und Institutionalisierung der Sammlung relevanter 
Informationen über Deepfakes, mit dem Ziel der späteren Nutzung dieser für 
weitere fundierte Maßnahmen. Der IOGAN Act sieht etwa vor, dass die National 
Science Foundation Forschungsvorhaben zur Echtheitsanalyse von Deepfakes 
fördert und das National Institute of Standards and Technology in Kooperation 
mit dem Privatsektor an Möglichkeiten der Deepfake-Detektion arbeitet. Der U.S. 
National Defense Authorization Act 2021 adressiert zum zweiten Mal in Folge 
Deepfakes. Zum einen verpflichtet es das US Department of Homeland Security 
(DHS) dazu, Möglichkeiten zur Produktion, Erkennung und Bekämpfung von 
Deepfakes zu fördern. Zum anderen soll das DHS über einen Zeitraum von fünf 
Jahren einen jährlichen Bericht über den Einsatz gefälschter digitaler Inhalte und 
deren Gefahren für die Öffentlichkeit erarbeiten (Briscoe, 2021; Schapiro, 2020). 

In China ist Anfang 2020 ein Gesetz in Kraft getreten, das zum einen alle 
Anbieter von Apps zur Produktion von Deepfake-Inhalten zur Kennzeichnung 
und zum anderen Plattformbetreiber dazu verpflichtet, nicht-gekennzeichnete 
Inhalte eigenständig zu erkennen, zu kennzeichnen oder zu entfernen, sofern es 
sich um unerwünschte Inhalte handelt. Schließlich soll die Gesetzesdurchsetzung 
mittels ergänzender Maßnahmen unterstützt werden. Eine Anmeldung bzw. 
Nutzung von Plattformen soll nur unter Angabe der Bürger-ID oder der Handy- 
nummer möglich sein, Plattformen sollen Beschwerdemöglichkeiten zur Meldung 
verdächtiger Inhalte einrichten, Audio- und Video-Plattformen sollen Standards 
erarbeiten und mittels eines Kreditsystems die Handlungen der Nutzenden 
bewerten. Darüber hinaus sollen staatliche Behörden regelmäßige Kontrollen 
über die Einhaltung der Gesetze durchführen, um die Verbreitung eines jeden 
Deepfake-Inhalts verfolgbar zu machen (Au, 2019; Chiu, 2019). 


4.2 Einschlägige Vorgaben auf EU-Ebene 


Die Regulierung von Deepfakes ist erst kürzlich in den Blick der EU-Politik 
gerückt und wird vor allem im Kontext der DSA- und KI-Verordnungsvor- 
schläge diskutiert. Doch auch abseits der sich konkret auf Deepfakes beziehenden 
Regelungen spielt das Regulierungsgeflecht der EU zur Adressierung der von 
Deepfakes ausgehenden Risiken eine wichtige Rolle. Dieses besteht aus mitglied- 
staatlichen und EU-Verfassungsnormen sowie harten und weichen Vorschriften 
— sowohl auf EU-Ebene als auch auf Ebene der Mitgliedstaaten. Beim Blick 
auf die EU-Regulierungen kann zwischen Maßnahmen unterschieden werden, 
die sich auf die in Deepfakes dargestellten Inhalte beziehen (die DS-GVO, das 
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Urheberrecht, die Richtlinie zur Bekämpfung des sexuellen Missbrauchs und der 
sexuellen Ausbeutung von Kindern sowie der Kinderpornografie und die Ver- 
ordnung zur Bekämpfung der Verbreitung terroristischer Online-Inhalte), und 
solchen, die den Prozess der Zirkulation von Deepfakes regulieren. Hierzu zählen 
die AVMD-Richtlinie, der KI-Regulierungsvorschlag und insbesondere der DSA 
und die EU-Maßnahmen gegen Desinformation. 

Deepfake-spezifische Gesetze, wie sie in einigen US-Bundesstaaten erlassen 
wurden, existieren in der EU nicht. Jedoch entfalten die EU-Regulierungen zur 
Inhalteregulierung in Kombination mit den in den Mitgliedstaaten bestehenden 
Rechten zum Schutz vor Verleumdung, Einschüchterung usw. eine ähnliche 
Wirkung. Vergleichbare konzertierte Maßnahmen wie in den Vereinigten Staaten 
hinsichtlich der Systematisierung und Institutionalisierung der Untersuchung der 
Folgen von Deepfakes und von neuen Detektionstechnologien hat es in der EU 
noch nicht gegeben. Die weitgehenden chinesischen Überwachungsmaßnahmen 
zur Kontrolle von Deepfakes erscheinen vor dem Hintergrund des Wertekanons 
der EU bzw. mit Blick auf grundlegende Menschenrechte als nicht wünschens- 
wert, sodass über derartige Maßnahmen nicht weiter diskutiert wird (van Huijstee 
et al., 2021, S. 58 ff.). 

Die EU-Datenschutz-Grundverordnung (EU-DS-GVO), die das Daten- 
schutzrecht EU-weit weitestgehend harmonisiert hat, berührt Deepfakes, da 
Stimmfragmente oder Fotos und Videos, die zur Abbildung einer Person in 
einem Deepfake genutzt werden, als personenbezogenes Datum einzustufen 
sind. Zudem ist die DS-GVO auch auf die Entwicklung von Deepfake-Software 
anwendbar, weil auch zur Entwicklung solcher Software auf mit personen- 
bezogenen Daten befüllte Foto- und Videodatenbanken zurückgegriffen wird. Als 
Rechtsgrundlage für die Verarbeitung personenbezogener Daten zur Erstellung 
eines Deepfakes kommen grundsätzlich die Einwilligung und berechtigte 
Interessen infrage. Letztere dürfte vor allem anwendbar sein, wenn Personen des 
öffentlichen Lebens unter Berufung auf das Recht auf freie Meinungsäußerung 
z.B. auf satirische Weise abgebildet werden. Bei Abbildung gewöhnlicher 
Personen, also in der Mehrzahl der Fälle, dürfte eine Einwilligung notwendig 
sein. Betroffene haben dann das Recht, der Verarbeitung zu widersprechen und 
etwa die Löschung der Videos zu verlangen. Aufgrund der Datenflut im Internet 
dürfte es allerdings schwierig werden, die Täter:innen zu identifizieren oder, ins- 
besondere in grenzüberschreitenden Fällen, den Rechtsweg zu beschreiten (van 
Huijstee et al., 2021, S. 38 £.). 

Das Urheberrecht in der EU basiert zwar weiterhin größtenteils auf mit- 
gliedstaatlichem Recht, doch durch eine Reihe von Richtlinien und zwei Ver- 
ordnungen ist es weitgehend harmonisiert (Margoni, 2016). Da zur Produktion 
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von Deepfakes häufig vorhandenes Foto- und Videomaterial verwendet wird, das 
in vielen Fällen urheberrechtlich geschützt sein dürfte (etwa Filmszenen), ist auch 
das Urheberrecht bei der Produktion und Verbreitung von Deepfakes zu beachten. 
Ähnlich wie im Bereich des Datenschutzrechts bieten sich hier zwei Wege: 
Zum einen müssen Deepfake-Produzent:innen vor der Verwendung geschützten 
Materials grundsätzlich die Erlaubnis der Urheberrechtsinhaber einholen. Zum 
anderen ermöglichen Ausnahmen die Verwendung für wissenschaftliche und 
künstlerische Zwecke, z. B. in Karikaturen oder Parodien (van Huijstee et al., 
2021, S. 40). 

Einen Hebel zur Bekämpfung von Desinformation und von Hate Speech auf 
Online-Videoplattformen stellt die EU-Richtlinie über audiovisuelle Mediendienste 
(AVMD-Richtlinie) dar, die 2018 in Reaktion auf Veränderungen der Medien- 
landschaft überarbeitet und verabschiedet wurde. Insbesondere mit Blick auf den 
Schutz von Minderjährigen, aber auch generell im Hinblick auf den Schutz von 
Medienkonsument:innen vor Volksverhetzung und Hate Speech, sieht die Richt- 
linie vor, dass Online-Video-Sharing-Plattformen Maßnahmen (z. B. Altersprüfung, 
PIN-Codes, Kennzeichnungen oder automatische Filterung) im Einklang mit der 
Achtung der geltenden Grundrechte und -freiheiten einführen sollen (Broughton 
Micova, 2020). Da sich die Regelungen der Richtlinie insbesondere auf porno- 
graphische und gewalttätige Inhalte beziehen, könnte sie geeignet sein, die Ver- 
breitung von nicht-einvernehmlichen Deepfake-Pornos einzudämmen (van Huijstee 
etal., 2021, S. 42). Weil die AVMD-Richtlinie keine weiteren inhaltlichen Vor- 
gaben macht, sondern auf die Durchsetzung des geltenden Rechts verweist, muss 
sich die Ergreifung von Maßnahmen in Bereichen abseits pornographischer und 
gewalttätiger Inhalte auf andere harmonisierte EU-Regelungen stützen. Hier 
kommen insbesondere die Ende 2011 in Kraft getretene Richtlinie zur Bekämpfung 
des sexuellen Missbrauchs und der sexuellen Ausbeutung von Kindern sowie der 
Kinderpornografie (Gercke, 2012) und die Verordnung zur Bekämpfung der Ver- 
breitung terroristischer Online-Inhalte, die ab Juni 2022 anwendbar sein wird 
(Signorato, 2021), infrage, um Inhalte entfernen zu lassen. 


4.3 EU-Maßnahmen gegen Desinformation 


Den Anfangspunkt der EU-Maßnahmen gegen Desinformation bildete der Aufruf 
der EU-Staatschefs im März 2015 zur Erarbeitung eines Aktionsplans (European 
Council, 2015, S. 5). In der Folge verabschiedete das Europäische Parlament eine 
Entschließung zum Thema Online-Plattformen, in der die Kommission zur Vorlage 
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eines Gesetzesvorschlags zur Bekämpfung von sog. Fake News aufgerufen wurde 
(European Parliament, 2017). Die Europäische Kommission initiierte Ende 2017 
eine öffentliche Konsultation zum Thema Fake News, rief Anfang 2018 eine hoch- 
rangige Expert:innengruppe zu Fake News und Online-Desinformation ins Leben 
und verabschiedete im April 2018 ein europäisches Konzept zur Bekämpfung von 
Desinformation inkl. Deepfakes im Internet. Ein zentrales Element darin war der sog. 
Code of Practice on Disinformation, der einige Wegmarken zur Selbstregulierung der 
Plattformbetreiber definierte (Europäische Kommission, 2018). Das bis dahin weit- 
reichendste EU-Werkzeug, das zur Bekämpfung von Desinformation und Deepfakes 
verabschiedet wurde, folgte im Dezember 2018 in Form des Aktionsplans gegen Des- 
information, der aus der Feder sowohl der Europäischen Kommission als auch des 
hohen Vertreters der EU für Außen- und Sicherheitspolitik gemeinsam stammt. Vor 
dem Hintergrund der wahrgenommenen Manipulation demokratischer Wahlen sah 
der Aktionsplan im Gegensatz zu den vorherigen Selbstregulierungsmaßnahmen 
einen stärkeren Fokus auf verbindliche Maßnahmen zur Erkennung und Bekämpfung 
von Desinformation vor (European Commission, 2018). 

Mit dem im Dezember 2020 vorgestellten Europäischen Aktionsplan für Demo- 
kratie veröffentlichte die Kommission einen umfassenden Maßnahmenkatalog, 
der den Fokus auf drei Schwerpunkte legte: (1) die Förderung freier und gerechter 
Wahlen; (2) die Stärkung der Medienvielfalt und -freiheit sowie (3) die Bekämpfung 
von Desinformation. Hervorzuheben ist insbesondere, dass die Kommission mit 
dem Aktionsplan den auf Selbstregulierung fußenden Weg, den sie mit dem Code 
of Practice on Disinformation eingeschlagen hatte, weiter revidierte und ver- 
stärkt auf Elemente der Ko-Regulierung zu setzen begonnen hat. In diesem Sinne 
wurde insbesondere die Veröffentlichung von Leitlinien zur Überarbeitung des 
Code of Practice unter Berücksichtigung von dessen Kompatibilität mit dem 
DSA angekündigt (Europäische Kommission, 2020). Diese Leitlinien legte die 
Kommission Mitte 2021 vor. Hinsichtlich der Stärkung der Verbindlichkeit des Ver- 
haltenskodex’ sieht die Kommission die Einrichtung eines Transparenzzentrums, 
einer ständigen Taskforce unter Beteiligung relevanter Stakeholder sowie die Ein- 
führung von Leistungsindikatoren zur standardisierten Messung der Ergebnisse und 
Auswirkungen des Verhaltenskodex’ vor. Zudem sollen sich die Dienstebetreiber 
dazu verpflichten, Empfehlungssysteme transparenter zu gestalten, leicht zugäng- 
liche Instrumente zur Meldung von Desinformation bereitzustellen, Revisions- 
möglichkeiten zu eröffnen und schließlich Maßnahmen zur Erhöhung der 
Sichtbarkeit zuverlässiger Informationen einleiten, was auch die Interaktion mit 
Faktencheck-Teams einbezieht (Europäische Kommission, 2021). 
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4.4 Relevante EU-Rechtsreformen: Digital-Services-Act- 
und KI-Regulierungsvorschlag der EU-Kommission 


Die zwei weitreichendsten Maßnahmen zur Adressierung der durch Deepfakes 
befürchteten Probleme folgten in Form zweier Verordnungsvorschläge der 
Europäischen Kommission. Diese werden im Folgenden skizziert und mit Blick 
auf Berührungspunkte zu Deepfakes diskutiert. 


4.4.1 EU-Digital-Services-Act-Regulierungsvorschlag 

Der im Dezember 2020 vorgelegte Verordnungsvorschlag Digital Services Act 
sieht die Harmonisierung der an Intermediäre gestellten EU-weiten Haftbarkeits- 
regelungen und Moderationsverpflichtungen vor. 

Der DSA-Vorschlag ist eine Weiterentwicklung der E-Commerce-Richtlinie, 
die über Jahre der zentrale Baustein in der Regulierung von Online-Inhalten auf 
EU-Ebene war, und adressiert einige Schwachpunkte. Das Ziel der im Jahr 2000 
verabschiedeten Richtlinie war es, den freien Verkehr mit Waren und Dienst- 
leistungen im E-Commerce mittels EU-weit harmonisierter Regeln zu gewähr- 
leisten. Allerdings stellte die Richtlinie inhaltlich einen Minimalkompromiss 
dar, um die wirtschaftliche Entwicklung von Diensteanbietern, im damals 
noch jungen Internet, nicht durch den Erlass von übermäßigen regulatorischen 
Anforderungen zu hemmen. Im Hinblick auf das Thema Inhalteregulierung 
wurde insb. von einer Verpflichtung von Diensteanbietern zur Ex-ante-Kontrolle 
der über ihre Kanäle fließenden Informationen abgesehen. Inhalte sollten nur 
dann entfernt werden, sobald die Betreiber über deren Illegalität in Kennt- 
nis gesetzt werden. In diesem Sinne wäre die Richtlinie auf Deepfakes grund- 
sätzlich anwendbar und würde den Diensteanbietern vorgeben, ein Deepfake 
nach Kenntnis über dessen Illegalität zu löschen. Allerdings wurde in der 
E-Commerce-Richtlinie nicht festgelegt, ab wann ein Inhalt als illegal einzu- 
stufen ist. Die entsprechende Einstufung war und ist EU-weit stark fragmentiert 
und basiert auf einer Mischung aus mitgliedstaatlichen und unionalen Rechten 
und Gesetzen. Ungeregelt blieb auch, was genau unter „in Kenntnis gesetzt 
werden“ zu verstehen ist, ob bspw. Nutzermeldungen bereits als ausreichend 
einzustufen sind oder lediglich Gerichtsbeschlüsse akzeptiert werden. Dement- 
sprechend wurde der rechtlichen Status Quo seit Erlass der Richtlinie als Zustand 
weitgehender Rechtsunsicherheit gedeutet. Zudem regelt die Richtlinie zwar, 
wann Dienstebetreiber von der Haftung befreit sind, aber nicht, unter welchen 
Bedingungen die Haftung eines Dienstebetreibers gegeben ist. Schließlich 
harmonisierte die Richtlinie auch nicht die Verfahrensgarantien für Wider- 
sprüche im Falle ungerechtfertigter Inhaltelöschungen, sodass Betroffene, deren 
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Inhalte unrechtmäßig entfernt wurden, nur in einigen Mitgliedstaaten das Recht 
haben, dagegen vorzugehen. Obwohl die Kommission spätestens seit 2012 im 
Bilde über die Schwächen der Richtlinie war, folgte sie zunächst weiterhin einem 
selbstregulativen Ansatz. So wurde statt des Erlasses EU-weit harmonisierter 
Regelungen insbesondere im Rahmen der oben diskutierten EU-Maßnahmen 
gegen Desinformation auf die Selbstregulierung großer Online-Plattformen 
gesetzt, sich der Adressierung der bekannten Schwachstellen freiwillig anzu- 
nehmen (Madiega, 2019). 

Wenige Jahre später erließen einige Mitgliedstaaten angesichts der Untätig- 
keit der Kommission eigene Gesetze zur Adressierung der Rechtsunsicherheit im 
Bereich der Haftbarmachung von Intermediären. Das deutsche NetzDG und das 
französische Gesetz gegen Falschnachrichten (Loi n° 2018-1202) sind Ausdruck 
dieser Entwicklung. Die sich aufgrund des Erlasses nationaler Regulierungen 
abzeichnende Rechtsfragmentierung bewegte die Kommission schließlich dazu, 
Ende 2020 ihre Vorschläge zum Digital Services Act (DSA) und Digital Markets 
Act vorzulegen und damit die E-Commerce-Richtlinie zu ersetzen und mittels 
harmonisierter Regeln mehr Rechtssicherheit zu schaffen. 

Der DSA-Vorschlag setzt den Regulierungsansatz der E-Commerce-Richt- 
linie fort und schreibt die Pflicht zur Löschung von illegalen Inhalten nur dann 
vor, sobald Dienstebetreiber Kenntnis darüber erlangen. Eine Harmonisierung 
dessen, was als illegaler Inhalt gilt, sieht auch der DSA-Vorschlag nicht vor 
und überlässt diesbezügliche Harmonisierungsbestrebungen bereichsspezi- 
fischen Regulierungen wie der DS-GVO und den anderen oben besprochenen 
Regulierungen. 

Der DSA schreibt vor, dass Dienstebetreiber transparent machen müssen, 
welche Moderationsregeln auf ihrer Plattform gelten und welche Maßnahmen 
sie zu deren Durchsetzung ergreifen. Der freiwillige Einsatz von Upload-Filtern, 
also die automatisierte Filterung von Inhalten beim Hochladen, ist gemäß 
Kommissionsvorschlag explizit zur Durchsetzung der Moderationsregeln erlaubt. 
Die Betreibenden eines Koch-Forums beispielsweise dürfen, nachdem Nutzende 
über die Moderationsregeln und den Einsatz von Upload-Filtern informiert 
wurden, Inhalte automatisiert herausfiltern, die nicht den Moderationsregeln ent- 
sprechen. Eine Vorabkontrolle hochgeladener Inhalte im Hinblick auf deren Ver- 
einbarkeit mit mitgliedstaatlichem und/oder EU-Recht sieht der DSA-Vorschlag 
hingegen nicht vor (Reda, 2021). 

Darüber hinaus werden Betreiber, die ein Notice-and-Takedown-Verfahren 
anwenden, dazu verpflichtet, ein System zu schaffen, mit dem illegale Inhalte 
EU-weit harmonisiert gemeldet werden können. Dadurch soll es Betroffenen 
erleichtert werden, die gegen sie gerichteten offensichtlich rechtswidrigen Inhalte 


212 M. Karaboga 


zu melden und entfernen zu lassen. Dadurch, dass der Vorschlag dies nicht 
explizit ausschließt, kann eine automatisierte Löschung und Sperrung gemeldeter 
Inhalte nicht ausgeschlossen werden (ebd.). Wenn ein Verdacht auf eine schwere 
Straftat vorliegt, die eine Bedrohung für das Leben oder die Sicherheit von 
Personen darstellt, sollen Betreiber diesen Verdacht zudem an die zuständigen 
Strafverfolgungsbehörden weitergeben müssen. 

Weil im DSA-Vorschlag Plattformen ab einer bestimmten Größe als quasi- 
öffentlicher Diskursraum betrachtet werden, auf dem die Ausübung des Rechts 
auf freie Meinungsäußerung zu schützen ist, sieht der DSA-Vorschlag zudem 
die Einrichtung eines Verfahrens vor, mit dem Betroffene gegen eine Sperrung 
vorgehen können. Daneben verpflichtet das Gesetz alle Betreiber dazu, mehr 
Transparenz über die erfolgten Sperrungen herzustellen, indem sie eine Daten- 
bank aufbauen, die u.a. Informationen über den Grund der Sperrung und 
den jeweiligen Beschwerdeführer beinhalten (European Commission, 2020; 
Schünemann, 2021). 


4.4.1.1 Der Digital Services Act und Deepfakes 
Da sozialen Online-Netzwerken eine zentrale Rolle bei der Verbreitung von 
Deepfakes zukommt, betreffen die Vorgaben des DSA Deepfakes unmittel- 
bar. So könnten die harmonisierten Notice-and-Takedown-Regeln eine wirk- 
samere Löschung unrechtmäßiger Deepfakes ermöglichen. Zugleich wären 
Upload-Filter zur Rechtsdurchsetzung ausgeschlossen. Befürchtet wird jedoch, 
dass die implizite Erlaubnis zum Einsatz von Upload-Filtern zur Durch- 
setzung der Moderationsregeln eine de facto Einschränkung des Rechts auf 
freie Meinungsäußerung bewirken könnte, wenn sich Intermediäre selbst mit 
nationalem bzw. EU-Recht konforme Moderationsregeln auferlegen, um mög- 
licherweise entstehende Mühen bei der Inhaltelöschung zu vermeiden. In ähn- 
licher Weise wäre auch denkbar, dass die Betreiber trotz der Transparenzvorgaben 
in Bezug auf gemeldete sowie gelöschte Inhalte (und trotz der Einspruchs- 
möglichkeiten, die für Betroffene von Sperrungen und Löschungen vorgesehen 
sind) ein Overblocking mittels automatisierter Sperrungen und Löschungen 
betreiben könnten. Die Wiederherstellung derartiger unrechtmäßig entfernter 
Inhalte wäre erst nach langwierigen Beschwerdezyklen möglich, die viele 
Betroffene wohl nicht auf sich nehmen würden, sodass eine Beeinträchtigung des 
Rechts auf freie Meinungsäußerung befürchtet wird (Buiten, 2021, S. 24 f.). 
Sofern ohnehin davon auszugehen ist, dass Dienstebetreiber Upload-Filter 
zur Durchsetzung ihrer Moderationsregeln einsetzen werden, könnten sie auch 
dazu verpflichtet werden, mittels Filter-Einsatzes die Authentizität sowohl 
hochgeladener Inhalte als auch der Accounts, die entsprechende Inhalte teilen, 
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zu erkennen und Gegenmaßnahmen zu ergreifen. Etwa in Form einer Kenn- 
zeichnung nicht-authentischer Inhalte oder der Unkenntlichmachung der in nicht- 
authentischen Videos dargestellten Gesichter oder Stimmen (van Huijstee et al., 
2021, S. 62 f.). 

Schließlich sei erwähnt, dass für eine angemessene Adressierung der aus 
Deepfakes resultierenden Herausforderungen auch Schritte notwendig wären, 
die über den Anwendungsbereich des DSA hinausgehen. Darunter fallen etwa 
mitgliedstaatliche Maßnahmen zur Unterstützung der Opfer von Deepfakes 
und europaweite Maßnahmen zur Aufklärung der von Deepfakes ausgehenden 
Gefahren (van Huijstee et al., 2021, S. 62 ff.). 


4.4.2 EU-Kl-Regulierungsvorschlag 

Der KI-Regulierungsvorschlag der Kommission, der im April 2021 veröffentlicht 
wurde, betrifft das Thema Deepfakes ebenfalls in mehreren Hinsichten (European 
Commission, 2021). 

Grundsätzlich verfolgt der Vorschlag das Ziel, die vertrauenswürdige und 
sichere Anwendung Künstlicher Intelligenz unter Einhaltung der EU-Werte und 
-Grundrechte zu ermöglichen. Zu diesem Zweck werden harmonisierte Regeln 
für die Entwicklung, Verbreitung und Nutzung von KI-Systemen vorgeschlagen. 
Dabei verfolgt der Kommissionsvorschlag einen risikobasierten Ansatz und 
unterteilt KI-Systeme in vier Risikokategorien: 1. Unannehmbares Risiko; 2. 
Hohes Risiko; 3. Geringes Risiko und 4. Minimales Risiko. Während Systeme, 
die ein unannehmbares Risiko mit sich bringen, verboten werden sollen, werden 
für Hochrisiko-Systeme strenge Vorgaben, für Systeme mit geringem Risiko vor 
allem Transparenzvorgaben und für solche mit einem minimalen Risiko keine 
Vorgaben vorgeschlagen (Geminn, 2021). 


4.4.2.1 EU-Kl-Regulierungsvorschlag und Deepfakes 

Deepfakes werden im Vorschlag explizit erwähnt und gemäß Kommission unter 
der Kategorie der Systeme mit geringem Risiko gefasst. Nach Artikel 52 (3) 
sollen Nutzende eines KI-Systems, das zur Produktion von Deepfakes dient, 
offenlegen, dass die dargestellten Inhalte künstlich erzeugt oder manipuliert 
wurden, womit eine gesetzliche EU-weite Kennzeichnungspflicht für Deepfakes 
eingeführt würde.* Zugleich wird im Erwägungsgrund 38 und im Annex III 


4 Ausnahmen sollen für den Bereich der Strafverfolgung, für die Ausübung des Rechts auf 
freie Meinungsäußerung sowie die Kunst- und Wissenschaftsfreiheit gelten (vgl. Art. 52 


(3). 
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(European Commission, 2021, S. 4) geregelt, dass die Nutzung von Deepfake- 
Detektionstechnologien durch Strafverfolgungsbehörden unter die Hochrisiko- 
Kategorie und die damit verbundenen strengen Vorgaben fällt. 

Doch sind mit dem Kommissionsvorschlag auch einige Probleme verbunden. 
Diese Schwierigkeiten ergeben sich einerseits aus dem Anwendungsbereich und 
andererseits aus dem unzureichenden Strafbezug. Denn die Kennzeichnungs- 
pflicht aus Artikel 52 (3) betrifft lediglich die Nutzenden eines KI-Systems, nicht 
aber die Hersteller und Anbieter der Systeme. Schaut man sich die geläufigen 
FaceSwap-Apps an, mit denen einfache Deepfakes erstellt werden können, sind 
entsprechende Markierungen in Form der Hersteller-Logos stets softwareseitig 
in die produzierten Videos eingebettet. Im Falle, dass die Hersteller und Anbieter 
dies nicht von sich aus anbieten, müssten allerdings die Nutzenden selbst ent- 
sprechende Kennzeichnungen in die Deepfake-Inhalte per Wasserzeichen ein- 
betten oder dies bei Veröffentlichung der Inhalte in einem Begleitkommentar 
kenntlich machen. Dies wäre freilich nur dann ein Problem, wenn die Anbieter 
und Hersteller nicht mehr selbständig entsprechende Kennzeichnungen vor- 
nehmen. Eine an die Anbieter und Hersteller gerichtete Verpflichtung zur Kenn- 
zeichnung würde hier aber Gewissheit schaffen. Zu einem echten Problem wird 
die unzureichende Kennzeichnungspflicht schließlich erst dann, wenn es um die 
Bekämpfung ungewollter Deepfake-Inhalte geht. Denn Deepfakes, die etwa mit 
dem Ziel der Desinformation oder Verunglimpfung verbreitet werden, sollen ja 
gerade nicht als Fälschung oder Manipulation erkannt werden, sodass weder die 
Hersteller und Anbieter noch die Nutzenden der entsprechenden KI-Systemen 
die Inhalte freiwillig kennzeichnen würden. In diesen Fällen entstünde mit 
der fehlenden Kennzeichnungspflicht für Anbieter und Hersteller schlicht eine 
Gesetzeslücke. Das Herstellen und Anbieten von Deepfake-Produktionssoftware, 
die bewusst keine Kennzeichnung beinhaltet, sodass Täuschungen Vorschub 
geleistet wird, wäre nicht strafbar? (van Huijstee etal., 2021, S. 44 f.). Unklar 
ist überdies, wie die zur Rechtsdurchsetzung vorgesehenen Aufsichtsbehörden 
mutmaßlich nicht-gekennzeichnete Deepfakes, die durch Nutzende verbreitet 
wurden, erkennen können sollen (Veale & Borgesius, 2021, S. 20). Problematisch 
ist auch, dass die Verbreitung von KI-basierten Deepfake-Detektionstechnologien 


°Erwähnt sei, dass einige Anbieter und Hersteller entsprechender KI-Systeme im 
Falle einer Strafbarkeit der Nicht-Implementierung einer noch in das KI-Gesetz zu 
integrierenden Kennzeichnungspflicht wahrscheinlich andere Strafumgehungsmöglich- 
keiten nutzen und ihre Dienste bspw. aus dem EU-Ausland heraus anbieten würden, sodass 
für diese Herausforderung wieder neue Lösungen gefunden werden müssten. 


Die Regulierung von Deepfakes auf EU-Ebene: Überblick eines ... 215 


im Vorschlag nicht geregelt wird, obwohl dadurch die Verbreitung und Ent- 
wicklung kriminell motivierter Deepfake-Technologien gebremst werden könnte. 
Zudem fallen einige der zur Adressierung der Herausforderungen von Deepfakes 
diskutierten Maßnahmen gänzlich aus dem Anwendungsbereich des Verordnungs- 
vorschlags. Zur Entwicklung von verbesserten Detektionstechnologien wären 
z.B. Schritte im Rahmen des EU-Forschungsrahmenprogramms notwendig (van 
Huijstee et al., 2021, S. 59 ff.). 


5 Schlussfolgerungen 


Der Aufsatz hat einen Überblick zum Stand der Regulierung von Deepfakes 
in der EU geliefert. Mittels einer einführenden konzeptionellen Einordnung 
wurde zunächst gezeigt, dass Deepfakes als Querschnittsphänomen mit Dis- 
kursen zu Desinformation, Fehlinformation, zu schädigenden Informationen 
und Hate Speech verbunden sind. Dies zeigte sich auch bei der Diskussion der 
mit Deepfakes assoziierten Chancen und Risiken: Einerseits stehen vor allem 
die von der Technologie ausgehenden Risiken im Mittelpunkt der gesellschafts- 
politischen Debatte. Andererseits wird mittels einer Typisierung der Risiken 
vor allem jenen eine größere Bedeutung zugeschrieben, die sich auf mögliche 
institutionelle und gesellschaftliche Schäden beziehen. Diese Risiken stellen 
mögliche Entwicklungsszenarien dar, deren Schäden sich meist noch nicht ent- 
faltet haben. Durchaus reale Auswirkungen haben Deepfakes hingegen schon 
heute insbesondere im individuellen Bereich. Die überwältigende Mehrheit 
aller Deepfake-Inhalte bezieht sich auf Deepfake-Pornographie, die zudem fast 
ausschließlich Frauen betrifft. 

Die Diskussion zur Regulierung von Deepfakes hat gezeigt, dass Deepfakes 
auch in anderen Teilen der Welt in den Blick des Gesetzgebers rücken. Während 
die Vereinigten Staaten eine zurückhaltende Regulierungspraxis betreiben 
und bundesweite Regulierungen sich vor allem auf die kontinuierliche Lage- 
bewertung und technologische Hoheitsbestrebungen fokussieren, reihen sich die 
Maßnahmen der Volksrepublik in die Politik der weitgehenden Überwachung 
aller Internetinhalte ein. 

Demgegenüber bauen die EU-Maßnahmen vorwiegend auf zwei Pfeilern. Zum 
einen werden mittels DSA- und KI-Regulierungsvorschlag konkret auf Deepfake- 
Technologien bezogene Maßnahmen diskutiert, mittels derer die Zirkulation und 
Wahrnehmung von Deepfakes reguliert werden soll. Der KI-Regulierungsvor- 
schlag setzt hier vor allem auf die Schaffung von Transparenz. Der DSA-Vor- 
schlag soll schließlich EU-weit harmonisierte Regeln festlegen. Diese berühren 
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den gesamten Zirkulationsprozess eines Deepfakes von der Meldung bis zur 
Entfernung von Inhalten. Mittels DSA sollen sowohl die Rechte von Personen, 
die einen Inhalt melden, als auch jene der von einer Entfernung ihres Inhalts 
Betroffenen miteinander in Einklang gebracht werden. 

Beide Regulierungsvorhaben stellen zwei zentrale Grundpfeiler der EU- 
Digitalpolitik dar, die das Feld der Plattformregulierung und des Einsatzes Künst- 
licher Intelligenz auf Jahre definieren werden. Dementsprechend wird um beide 
Vorschläge politisch intensiv gerungen und beide Verordnungen werden, sofern 
der Gesetzgebungsprozess erfolgreich abgeschlossen wird, am Ende einen 
großen inhaltlichen Wandel durchlaufen haben. Fraglich ist dabei, inwiefern sich 
die Regulierungsvorschläge der Einhegung der durch Deepfakes befürchteten 
Gefahren annehmen werden, und noch fraglicher ist, ob die dann eventuell 
erlassenen Maßnahmen ein sinnvolles Werkzeug darstellen werden. Schließlich 
basiert ein Großteil der Forschung zu den möglichen Folgen von Deepfakes auf 
Annahmen. Klar ist jedenfalls, dass neben den in diesem Aufsatz erläuterten, 
weitere Bemühungen erforderlich sein werden, um die befürchteten Folgen von 
Deepfakes einzuhegen. Dazu zählen sowohl weitere Bemühungen auf EU-Ebene 
und insbesondere auch mitgliedstaatliche Maßnahmen. 

Insofern liefert der vorliegende Beitrag mit Blick auf die Rolle der DSA- und 
KI-Verordnungsvorschläge bei der Regulierung von Deepfakes einen Schnapp- 
schuss. Er macht aber zugleich auch deutlich, dass die Zeiten überholt sind, in 
denen digitalpolitische Themen und als Gefährdung wahrgenommene techno- 
logische Entwicklungen erst mit Verzögerung in den Blick des Gesetzgebers 
rückten. 
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